{港產AI大模型達人}郭毅可 站在巨人肩上研HKGAI V1 香港AI發展 步伐穩健、方向正確

文章日期:2025年03月02日

【明報專訊】《財政預算案》宣布成立香港人工智能研發院,財赤之下仍為此預留10億元,足見對人工智能發展的重視。預算案公布前夕,由政府資助的InnoHK香港生成式人工智能研發中心(HKGAI)發布首個香港研發的AI大語言模型HKGAI V1,是基於DeepSeek 671B全參數微調,並持續訓練而成。記者邀請科大首席副校長、HKGAI主任郭毅可受訪,介紹V1大模型的研發過程,也談談對香港人工智能發展的展望。

全參數微調DeepSeek模型

一個月上線HKGAI V1

2023年ChatGPT引起全球關注,卻不對香港地區開放。港府與香港的專家、科研團隊經過討論,決定建立本地的生成式人工智能研發平台,即是後來於同年10月成立的HKGAI。不到一年,HKGAI便開發出第一個大語言模型的版本「港文通」(生成式人工智能文書輔助應用程式),去年年中率先於政府部門試用。

持續追蹤DeepSeek發展

準備數據訓練系統

郭毅可認為,相較其他地方,香港暫時缺少技術能力、財力和人才,去做很多大模型彼此競爭,倒不如像現在集中精力,做一個非常好的模型。「我覺得香港政府是很聰明的,中國有一句話叫『因地制宜』, 所以我們已經知道自己的長(處)和弱(點)。」他闡述香港的研發方式,是先由政府內部試用,並面向世界上最好的技術,最後才一步到位。HKGAI團隊早於DeepSeek-V2去年中推出時,便開始追蹤其發展;與此同時,團隊持續培養自身系統的微調能力、價值觀對齊能力,花了很大精力去準備數據。這些訓練資料包括政府的公開資料庫、圖書館數據,以及特定領域的專業知識等等。

DeepSeek-R1今年1月20日對外發布,以低研發成本及高效能震驚全球。HKGAI團隊5天後開會決定就DeepSeek模型進行全參數微調。短短一個月後,HKGAI V1大模型已經上線,研發速度的確很快。郭毅可稱,這是由於HKGAI本來已有一個本地大模型,加上有很強的技術團隊進行微調。

香港市民可免費註冊使用DeepSeek模型,系統亦支持廣東話對話。在此背景下,為何香港仍有需要研發自己的AI大模型?郭毅可嘗試以通俗說法解釋,DeepSeek就像是大腦,神經元的連接經過訓練形成特定模式,組織成我們的思考。可是當這個「大腦」來到香港,會遇到不一樣的思考、表達方法,香港有自己的價值觀、風土文化,郭舉例自己作為上海人,「我就要重新學習,讀香港的書,聽香港的話,看香港的電影。」HKGAI V1基於DeepSeek 671B進行全參數微調,也就是把系統本地化,使其回應更貼近香港的文化、價值。

郭毅可形容現在像是「站在巨人肩上」,以高水平的DeepSeek模型作為基線,在研發路上繼續前進。DeepSeek採用開源模式,把「腦袋」(參數)交給全球的研發人員,而後者仍然要研究「學習方法」,使「腦袋」學習新東西的同時,持續不遺忘過去好的記憶,這正是難度所在。「如果我們學會了持續學習,也就學會了DeepSeek的學習方法 。這些方法如果看到它效率不高, 我們就可以再做改進。」郭毅可提醒,人類永遠會進步,「DeepSeek只是剛開始,不是結束」。

不過早商業化

HKGAI V1 發 布會上,團隊示範與聊天機械人對答,問旺角哪裏有「平靚正」的燒味檔,它推薦了數間餐廳並附上簡介;又展示以王菲新歌《世界贈予我的》歌詞重新作曲,效果不俗。模型有計劃開放予公眾以至企業使用,不過郭毅可強調先要確保模型穩定,舉例不同答案要有一致性,不能今天說某某是對,明天說是錯。此外,模型要有足夠的承載力,以應付大量用戶同時使用。「在沒有做出非常穩定、 非常被社會接受的系統, 我們也不談過早的商業化」,郭毅可認為這樣可以保證研究水平,「研究不急,我們等得起;時機到,我們也做得非常快」。

團隊近200人

年輕人是主力

郭毅可2014年創辦倫敦帝國學院數據科學研究所,做的就是人工智能開發。那段時間正是這波人工智能發展浪潮的開端,有關深度學習的研究已經開始,由DeepMind研發的人工智能AlphaGo更在2015年擊敗歐洲圍棋冠軍,一鳴驚人。從那以後,人工智能發展飛快,郭毅可感嘆:「我們(現在)一天的成就,可能是過去70年的成就。」因此他說「幹人工智能(行業)很苦」,領先世界的時間大概只有數小時,可能很快又會被超越。

身為人工智能領域的國際權威學者,郭毅可一直也在研究邏輯、推理。不過被問到是否需要教導年輕一代使用AI,他卻說他們隨時反過來教你,舉例從醫的兒子每天都要使用AI系統,「所以他是我的產品經理,我得問他怎麼弄」。俗語有云名師出高徒,郭毅可說人工智能行業是「高徒出名師」,要向身邊學生學習。HKGAI團隊接近200人,超過一半是90後、00後。「你想它(人工智能)發展這麼快, 年輕人當然是主力。」

HKGAI除了研發模型,也同步培養人才。中心主任郭毅可直言:「那麼大規模的一支團隊,在香港是可貴的,原來是沒有的 。」團隊成員大多從內地或其他國家來港,也有一些香港本地人才,但不太多。人才是流動的,他認為香港作為國際城市且網絡暢通,有助吸引內地和國際人才。有了HKGAI這個基礎大模型,他預期香港一至兩年內會冒出20多間公司。「水往低處流,人往高處走。系統愈來愈好,人才便愈來愈多。」

香港算力不足但效率高

望研發院連結「產學研」

人才以外,算力是人工智能算法運行和數據處理的根基。郭毅可指出,HKGAI V1的開發過程中,數碼港也提供了算力支援,「如果沒有他們的算力支持,我們也比較苦 ,沒那麼快」。由政府支持、於數碼港設立的人工智能(AI)超算中心去年啟用,首階段提供1300PFLOPS(每秒浮點運算1300千萬億次)算力,今年逐步提升至3000PFLOPS。郭毅可指出,若有足夠的算力,大模型迭代(進化)的時間也可縮短。以炒菜作比喻,一般煤氣爐要炒10分鐘,愛文森大牌檔用大火快炒,「兩分鐘就完了,炒得還好吃」。他認為香港現在算力並不足夠,但不足亦非壞事,說明使用效率很高;盲目增加算力也是浪費,應按研發團隊、企業的發展適時調整,以免耽誤其應用。

預算案宣布成立香港人工智能研發院,創新科技及工業局長孫東指,未來會考慮將HKGAI與研發院的發展整合,以推動AI在社會應用及產業發展。郭毅可個人認為,研發院可望成為連結「產學研」的膠水,亦可負責研究優化提供算力的組織結構、促進國際合作等工作。

AI治理須懂技術 法律可結合測假工具

HKGAI受創科局委託,參與制訂生成式人工智能的應用指引,創科局指將於不日公布。郭毅可提及,HKGAI是同步進行開發和撰寫指南,使指南得以與技術結合。自AI工具愈來愈普及,各地對於其治理存有分歧,譬如歐盟率先通過規範AI應用的《人工智慧法》,美國總統特朗普則大力推動AI發展。到底應如何規管AI,又不會窒礙科研?

郭毅可認為:「治理的人要懂技術,懂技術的人要懂治理,兩者不可分。」譬如當有人說不能讓機器有意識,他覺得這種討論從科學角度來說是缺乏深度,「什麼叫意識?」如果結合技術層面一起思考,便不會如此籠統提出問題。無可否認的是,存在深度偽造等對AI的誤用,郭毅可也認同需要治理,「所以我覺得一定是要平衡,當矛出來的時候,就要有精確的盾」。法律規管可結合測假工具,互相補足。

創新科技及工業局長孫東出席HKGAI V1大模型的發布會,表示在這波以人工智能為代表的科技浪潮中,香港沒有缺席。郭毅可認同其說法,而且香港在中國AI發展過程中濃墨重彩,人工智能企業商湯科技、無人機製造商大疆創新均與香港有關連。

研發道路清晰 也要跑得快

只談生成式AI發展,郭毅可也評價香港的步伐穩健,方向正確。「我們現在(研發)的道路比較清晰,不會去走彎路了,爭取不走彎路。但是走的道路清晰是好的,跑的也要快啊,這也是一個挑戰。 」有了HKGAI V1大模型,接下來要逐步建立生態,除了像HKGAI的技術開發者,還要有服務提供者(現在暫時只有政府)、算力機構和寬頻網絡等參與。

有意見認為,香港在AI發展方面步伐落後,但郭毅可沒有這感覺。當然凡事只有更好,沒有最好,他認為香港在算力增長、數據標準、人才培養等方面可做得更好。「落後不落後 ,最後看這個社會對它的接受程度」,他有信心,香港完全有可能成為中國AI程度最高的城市。此外,香港以至全中國的AI研究,同樣面臨原始創新的挑戰。郭毅可稱,DeepSeek給了大家很好的鼓勵,可以做得好的,「而且我覺得現在這批90後是非常出色的,他們有一種平視世界的心態」。

文˙ 朱令筠

{ 圖 } 李紹昌、受訪者提供

{ 美術 } 朱勁培

{ 編輯 } 梁曉菲

fb﹕http://www.facebook.com/SundayMingpao

相關字詞﹕