技術2:語音重建 AI「翻譯」代言

文章日期:2022年03月08日

【明報專訊】另一班「有口難言」的病人,是因腦部疾病、神經損傷而引致構音障礙症(dysarthria)。中大團隊透過AI、語音重建技術和擴展障礙語音數據庫,將患者含糊不清的語音重建成正常語音,並在去年贏得香港科技園「SciTech Challenge創業比賽」公開組冠軍,將逐步投入應用。

根據美國言語、語言及聽力學會(ASHA)解釋,構音障礙症是一種神經性語言障礙。成人患者常見徵狀包括說話時在強度、速度、音域、穩定、語調出現異常;在呼吸、發聲、共鳴、發音或說話韻律上欠準;面部、口部等構音肌肉功能不理想,或有肌肉痙攣、無力等情况出現。

語音識別技術(automatic speech recognition,簡稱ASR)及語音合成技術(text-to-speech,簡稱TTS),是團隊多年來不斷研究及發展的語音技術。香港中文大學禤永明系統工程與工程管理學教授、CPII言語及語言智能項目負責人及首席研究員蒙美玲解釋,ASR是指透過人工智能 ,容許機器接受語音輸入(speech input),從語音數據庫中學習人類語言,再將人們的語音變為文字;而TTS則是透過AI,容許機器將人們輸入的文字變成語音輸出。

要研究語音技術,就必須使用大數據。蒙美玲指,話語中存有很多變化性(variability)和不變性(invariance)。變化性包括不同說話者的各種語調、情感、口音、身體狀况等,都會改變話語發出的信號;不變性可以是說話時使用的字眼。各種變數的出現,令語音技術研究需用上大數據辨識話語內容。

花數年擴展廣東話數據庫

然而,現有語音數據庫存數據偏頗,因為數據一般來自從事IT行業、常用數碼化產品、說當地語言時口音較少的人,多數為成年人士;相反有口音、語言障礙患者、長者、小朋友等就沒有足夠的語音數據支撐ASR技術,使他們的語音難以被準確辨識。另外,現存公開的語音數據庫,部分語言缺乏數據,包括廣東話。

蒙美玲與她的跨學科研究團隊,透過語音重建技術(speech reconstruction)、ASR、TTS的研究,同時花上數年時間擴展廣東話的語音數據庫,協助構音障礙症患者與照顧者更好溝通。由2013年開始,團隊與香港中文大學醫學院及病友組織合作,邀請數十名不同年齡層的構音障礙症患者,錄製他們常用的廣東話用語,擴充障礙語音數據。錄製過程中,患者會讀出經研究團隊精心設計的廣東話句子,嘗試用最少的字句包含所有廣東話發音,收集研究所需的語音數據。

以ASR、TTS技術為基礎,以及團隊開發的語音重建技術,系統接收到患者含糊不清的語音後,利用AI演算法,將含糊不清的語音轉化成正常語音,最後以語音轉換技術轉換成貼近說話人的發音及語調。

團隊期望日後能把此技術製作成應用程式,讓更多有需要人士可於不同地方使用。惟蒙強調,「AI並不是萬能,因為世界各團隊多年的研究,才令AI有這個能力」。

RELATED