【明報專訊】近日內地網上廣傳一篇名為〈中文互聯網正在加速崩塌〉的文章,文章作者指出搜尋引擎的搜尋結果數量大減。原來不止是中文互聯網,而是全世界網絡搜尋結果質素下降。2008年諾貝爾經濟學獎得主Paul Krugman上月在社交平台X評論Google和其他搜尋引擎退化,令他做研究蒐集資料更困難,更批評「人工智能比無用更差(AI is worse than useless)」。我們日常依賴作資料蒐集的搜尋引擎到底發生什麼事?搜尋結果變差與人工智能發展又有何關係?
搜尋「李嘉誠」
記者首先按〈中文互聯網正在加速崩塌〉作者的測試做法,使用個人電腦不限語言和時間搜索本港著名企業家「李嘉誠」,在0.23秒內獲得約405萬個搜尋結果,首3位分別是維基百科、百度百科和長江和記實業有限公司官網的介紹,再往下便是含有「李嘉誠」這關鍵詞的各樣內容,包括香港都會大學李嘉誠專業進修學院和佛教李嘉誠安老院等網站。
記者把搜索範圍縮窄到2000年至2022年間,在0.33秒內生出約248萬搜尋結果,數量減約半,今次搜尋結果首3位是李於1986年獲頒香港大學名譽法學博士學位的簡歷、長江和記實業有限公司官網簡介和李嘉誠基金會網頁。搜尋結果雖與鍵入內容相關,但日期欠準確,記者未點擊香港大學的網頁前,該詞條下的內容是「2020年10月7日—香港大學謹向李嘉誠先生頒授名譽法學博士學位……」,乍看之下會以為李嘉誠的法學博士學位在2020取得。若在搜索時間範圍內按年搜尋,2000年關於「李嘉誠」的搜索只有約229項結果,首位來自祥益地產網站一篇標題為〈李嘉誠,名副其實,香港就是李家的城。他是我們的上帝〉的文章;2001年則有362項搜尋結果,首位是香港都會大學中國人文學科基礎課程資訊。這似乎反映年份愈久遠,能找到貼合目標內容的資訊愈少。
記者以同樣方法在Microsoft Bing搜索「李嘉誠」,共得1230萬則搜尋結果,首3位是維基百科和百度百科對他的介紹,還有串流平台YouTube上標題寫有李嘉誠卻介紹「鐵板神算」董慕節的影片,再將搜索範圍縮窄到2000年至2022年間,搜尋結果首3位換成《香港01》和《今周刊》整理李嘉誠生平的文章。
技術沒問題 重點是營商手段
選委界立法會議員黃錦輝是香港中文大學工程學院副院長,專門研究人工智能,他於1998年與幾名學生和研究助理成立慧科訊業,推出中文報章資料庫WiseNews,方便記者不用到圖書館翻看膠片。WiseNews可以輸入關鍵詞搜索。隨時代更迭,搜尋引擎可找到各樣資訊包括新聞,對於搜尋引擎的搜尋質素變差,黃錦輝說:「這個問題是一個營商手段,數據庫本身那個技術沒問題,問題是你擺放什麼資訊上去(互聯網)。」他所說的營商手段是指「搜尋引擎最佳化」(Search Engine Optimization,SEO),他解釋SEO是將熱門關鍵詞加入發布內容,令搜尋引擎用戶更易尋找,「簡單的搜尋引擎是建基於關鍵詞,它出現的頻率決定它是否熱門內容,但關鍵詞出現的頻率這並不代表整篇文章內容的意思。」譬如說「Apple」一詞套用在美國語境,搜尋結果可以是出售科技產品的蘋果公司,也可以是一個農場。黃錦輝說一個詞可以生出多種歧義,又例如英文單詞「bank」既可解作銀行,亦可解作堤岸。
黃錦輝說他們用搜尋引擎做研究的其中兩個指標是準確度和覆蓋率,準確度即搜尋引擎演算法理解到用戶的查詢並分析到語義(semantic),覆蓋率則是搜尋引擎蒐集到多少有用信息。不過生成式人工智能生產的內容包含很多關鍵詞,卻未必符合用戶搜尋目的,甚至是垃圾內容,令搜尋結果質素下降。理論上,Google會一直監測搜尋引擎的表現,但AI生成的內容愈來愈多,伺服器要處理的數據增加,「這些信息愈多的時候,每天要做的分析量又加大了」,搜尋速度也會變慢,黃錦輝說其中一項解決方法是增加伺服器,或者買多幾塊邏輯晶片處理,這就好比一間圖書館,藏書太多要添置書櫃。
人工智能幻覺 出錯難發現
從事研究開發的Here.news首席架構設計師、哈佛大學伯克曼網際網路與社會研究中心研究員毛向輝(Isaac Mao)與黃錦輝均指出「人工智能幻覺」(AI hallucination,又稱人工幻覺)的現象,即大型語言模型(Large Language Model,LLM),如生成式AI聊天機器人或電腦視覺工具,虛構不存在或人類無法輕易察覺的錯誤資訊,生成廢話或完全不準確的輸出(output)。毛向輝直言人工智能幻覺的問題很麻煩,因為以前「所有人都十分相信搜尋引擎的搜尋結果」。毛以Google為例,Google約20年前使用「PageRank」(網頁排名)的演算法來為搜尋結果排名,主要以網頁之間的超連結數目和品質來分析網站的重要度,亦即網站被愈多其他高品質、權威性的網站所連結,其搜尋排名愈高,引致不少人利用此方式來「作弊」,使一些舊網頁的排名靠前,最終Google不再開放PageRank資料予公眾。
AI「作弊」勝過人類
但比起人類作弊,AI作弊的速度更快,更有效率,毛向輝留意到過去一年網絡的AI生成內容增近5倍,「淹沒網絡」,這增加Google為網站建立索引(index)的難度,即將網站收錄到搜尋引擎內,以及分辨人類和AI創作的內容愈來愈難。他續說,人工智能發展很快,它們不但可以生成文字內容,還可以生成圖像和錄音,「AI懂得如何將其生成內容最佳化,以在Google搜尋頁面有較高排名的顯示」。毛說當Google今年在美國開放AI搜尋功能「AI Overview」,其搜尋結果質素更糟糕。譬如他搜尋「什麼食物適合一個家庭在夏天吃」主題的關鍵詞,搜尋結果可能是一堆不相干的網站,他說這可能與AI訓練的數據出錯有關,但無疑是「double jeopardy(雙重危險)」,既誤導用戶,也減低搜尋引擎的可信度。毛笑稱Google本應是過濾AI生成錯誤內容的「警察」,現在卻成了其中一分子。記者就搜尋結果質素問題以電郵向Google查詢,截稿前未獲回覆。
中文互聯網質素下降尤嚴重
毛向輝認為搜尋結果質素下降的問題在中文互聯網世界更嚴重。他說英文互聯網世界有存檔(archive),可讓用戶翻閱和建立網頁存檔,減少高質網站內容的流失,例如美國的互聯網檔案館(Internet Archive)設有「Wayback machine」和「Archive-It」功能,Google則有Google Cache,以防一些網站突然無法使用,不過Google也有刪除cache(快取記憶體)的習慣。至於中文互聯網,毛則說內容創作者嘗試營銷,多於保持內容質素來確保內容有長期保存的價值,而且商家本身就會自我審查,例如百度會移除敏感或負面內容。要為網站資料存檔,顯然需要空間和網絡流量,便須投放更多資源。譬如上文提到的Wayback machine,毛向輝稱它每年約需4000萬美元來營運。但商業公司一般以利潤先行,會趨向保留吸引人眼球的內容,而非網站資料紀錄,毛向輝說現時的網站內容更聚焦具吸引力和「快餐」類型,甚少人會願意為網站歷史存檔而創建資料庫。
伺服器離線 避免AI取用內容
那麼生成式AI的發展,除了衍生無用資訊,還會導致什麼問題影響搜尋引擎的搜尋結果?《紐約時報》去年控告OpenAI與微軟(Microsoft)非法使用其報章來訓練和開發ChatGPT與Copilot(前稱Bing Chat),侵犯知識產權。毛向輝說AI取用其他網站資料來訓練固然沒得到當事人許可,但他認為這問題仍需斟酌,「AI的訓練有點像人類閱讀書本或資料後,自動衍生內容概要一樣。難以直接說AI是在違反法律」。另一方面,毛關注的是人類創作內容正在「萎縮(減少)」,假如人類不再自行創作,那麼AI也不能基於其創作來生成內容。
那麼人們會為了不讓AI「侵權」而刪除過往的創作內容和建立的網站嗎?黃錦輝直言這是其中一個可能,但用戶可將電腦伺服器切換成離線狀態,用私有雲(雲端主機),避免AI取用其數據。因應AI發展,知識產權署表示會檢視現行的《版權條例》,黃錦輝說未經擁有者同意,將其創作內容用作訓練AI是侵犯版權,而知識產權署正正要提醒市民使用AI時注意數據使用的合法性。至於AI生成內容是否原創內容,其內容擁有權誰屬,黃錦輝說現時普遍認為用家是AI生成內容的創作者,但這仍有待知識產權署定義。他又認為現時不少商業人士「美化(AI)這個還未算成熟的技術,這個科技推得過分熱,其實背後還有很多可以改良的地方」。