虛擬新世界：AI發展點止生成文本？

文章日期：2023年04月04日

Share

prev next

【明報專訊】鄒：鄒健宏蔡：蔡永中

蔡：鄒sir，近期最熱門的城中熱話十不離九都是與人工智能有關，外行人包括小弟都只知它好像無所不知，但對其背後的原理和運作等所知不多，可否講解一下？

鄒：相信有認真深入了解的人應該不會太多，我舉近期熱爆的ChatGPT為例，它是由人工智能實驗室OpenAI創造的一款聊天機械人，擁有深度學習模型功能，它可以用來生成文本、識別語文意義，以及做文本分類等工作，這些功能令ChatGPT能廣泛應用於教育、媒體、影視、營銷等多個領域。但普遍的使用者都只將AI技術運用於生產文本、PPT等文字方面。

蔡：據我所知，坊間愈來愈多這類型的聊天機械人，一直致力發展高科技的祖國也不甘後人。

鄒：近期祖國科技界也追趕這股AI熱潮，最積極的首推百度，推出聊天機械人「文心一言」，可惜的是效果未如理想，除了文字理解能力存缺陷，圖像創作功能亦不理想，創作的人物臉部特徵不符合比例；加上不支援英文、迴避敏感話題等都會嚴重影響用戶體驗，這類嚴格審查制度令聊天機械人的研發受到很大限制，相信文心一言要追趕ChatGPT的步伐十分困難。

製高清短片未來或可編舞

蔡：Google Bard又如何？

鄒：這款跟ChatGPT和Bing AI類似的人工智能聊天機械人，使用LaMDA語言模型，擁有1.56萬億參數，相比GPT-4傳聞「只有」1750億參數（實際數字未有公開）多出約8倍。最厲害的是未來可整合到Google旗下的眾多服務，協助解決用戶學習、工作和生活各種問題，定必會與ChatGPT競爭激烈，美中不足是暫時並未支援中文輸入或輸出。

蔡：我留意到不少科技公司都推出人工智能工具，例如TOME、REMOVE、FLIKI等，似乎大家都渴望在這炙手可熱的市場上分一杯羹。

鄒：老實說，你提到的這幾家，他們大多都只有普通的文字生成、圖片退地等簡單功能，說實在又怎能與一眾科技巨擘爭一日之長短。我一直認為企業要成功，必須要找到特定的市場，AI工具不應局限於文字和圖片，初創企業也可以突圍而出。好像Synthesia便打正旗號以短片取代文字，其人工智能可以將文本轉為精彩的高清短片，所需時間大約是5分鐘，並支援超過120種語言、不同場景模板、錄音屏幕、媒體資料庫等，甚至擁有背景音樂及MP4等下載功能。

蔡：我有一個從事IT的朋友都讚Synthesia功能強勁，即使完全沒有短片製作或剪接經驗都輕易做到一些簡單的音樂短片，人人都可以成為短片大師。

鄒：AI還可以根據特定的內容創作出豐富多彩的影像，好像去年7月，浸大交響樂團創造了全球首場與AI虛擬合唱團演唱《東方之珠》的表演，當中AI媒體藝術家從音樂旋律及歌曲中學習對歌詞的意思及美學理解，創造出跨媒體的視覺影像，完成人機共創共演的創舉，令人大開眼界。

另外，聽聞Google也正在研發FACT，以AI將音樂生成對應舞蹈功能，傳聞它可以模仿、理解舞蹈動作，甚至可提高個人的編舞能力。AI的發展潛力真的深不可測，只要肯動腦筋，初創企業也可以針對特定的領域發揮所長，殺出一條血路，人工智能的發展必定百花齊放。●

文︰香港數碼資產學會理事鄒健宏×特約記者蔡永中

相關字詞﹕人工智能虛擬新世界每日明報-FEATURE

Share