虛擬新世界:AI發展點止生成文本?

文章日期:2023年04月04日

【明報專訊】鄒:鄒健宏 蔡:蔡永中

蔡:鄒sir,近期最熱門的城中熱話十不離九都是與人工智能有關,外行人包括小弟都只知它好像無所不知,但對其背後的原理和運作等所知不多,可否講解一下?

鄒:相信有認真深入了解的人應該不會太多,我舉近期熱爆的ChatGPT為例,它是由人工智能實驗室OpenAI創造的一款聊天機械人,擁有深度學習模型功能,它可以用來生成文本、識別語文意義,以及做文本分類等工作,這些功能令ChatGPT能廣泛應用於教育、媒體、影視、營銷等多個領域。但普遍的使用者都只將AI技術運用於生產文本、PPT等文字方面。

蔡:據我所知,坊間愈來愈多這類型的聊天機械人,一直致力發展高科技的祖國也不甘後人。

鄒:近期祖國科技界也追趕這股AI熱潮,最積極的首推百度,推出聊天機械人「文心一言」,可惜的是效果未如理想,除了文字理解能力存缺陷,圖像創作功能亦不理想,創作的人物臉部特徵不符合比例;加上不支援英文、迴避敏感話題等都會嚴重影響用戶體驗,這類嚴格審查制度令聊天機械人的研發受到很大限制,相信文心一言要追趕ChatGPT的步伐十分困難。

製高清短片 未來或可編舞

蔡:Google Bard又如何?

鄒:這款跟ChatGPT和Bing AI類似的人工智能聊天機械人,使用LaMDA語言模型,擁有1.56萬億參數,相比GPT-4傳聞「只有」1750億參數(實際數字未有公開)多出約8倍。最厲害的是未來可整合到Google旗下的眾多服務,協助解決用戶學習、工作和生活各種問題,定必會與ChatGPT競爭激烈,美中不足是暫時並未支援中文輸入或輸出。

蔡:我留意到不少科技公司都推出人工智能工具,例如TOME、REMOVE、FLIKI等,似乎大家都渴望在這炙手可熱的市場上分一杯羹。

鄒:老實說,你提到的這幾家,他們大多都只有普通的文字生成、圖片退地等簡單功能,說實在又怎能與一眾科技巨擘爭一日之長短。我一直認為企業要成功,必須要找到特定的市場,AI工具不應局限於文字和圖片,初創企業也可以突圍而出。好像Synthesia便打正旗號以短片取代文字,其人工智能可以將文本轉為精彩的高清短片,所需時間大約是5分鐘,並支援超過120種語言、不同場景模板、錄音屏幕、媒體資料庫等,甚至擁有背景音樂及MP4等下載功能。

蔡:我有一個從事IT的朋友都讚Synthesia功能強勁,即使完全沒有短片製作或剪接經驗都輕易做到一些簡單的音樂短片,人人都可以成為短片大師。

鄒:AI還可以根據特定的內容創作出豐富多彩的影像,好像去年7月,浸大交響樂團創造了全球首場與AI虛擬合唱團演唱《東方之珠》的表演,當中AI媒體藝術家從音樂旋律及歌曲中學習對歌詞的意思及美學理解,創造出跨媒體的視覺影像,完成人機共創共演的創舉,令人大開眼界。

另外,聽聞Google也正在研發FACT,以AI將音樂生成對應舞蹈功能,傳聞它可以模仿、理解舞蹈動作,甚至可提高個人的編舞能力。AI的發展潛力真的深不可測,只要肯動腦筋,初創企業也可以針對特定的領域發揮所長,殺出一條血路,人工智能的發展必定百花齊放。●

文︰香港數碼資產學會理事鄒健宏×特約記者蔡永中

相關字詞﹕人工智能 虛擬新世界 每日明報-FEATURE