隨著人工智能的快速發展,弱勢語言是否注定被邊緣化成為一個值得關注的問題。當ChatGPT等AI模型無法正確理解和生成廣東話這樣的弱勢語言時,這是否意味著這些語言在數字時代將面臨更多挑戰?或許我們需要思考如何保護和發展這些珍貴的語言資源,以確保AI時代的多樣性和包容性。 你聽過 ChatGPT 說廣東話麼?
如果你是普通話母語者,恭喜你瞬間收穫「精通粵語」成就。反而是會說廣東話的人,這時可能要一頭霧水了--ChatGPT 自帶奇特口音,像外地人在努力說廣東話。
2023年9月的一次更新中, ChatGPT第一次擁有了「說」的能力;2024年5月13日,最新一代模型 GPT-4o 發布,雖然新版的語音功能尚未正式面世,只存在於 demo 中,但從去年的更新中,已經可以一窺 ChatGPT多語言語音對話的能力。
而很多人也發現了,ChatGPT 講廣東話口音濃重,雖然語氣自然,像真人一樣,但那個「真人」肯定不是廣東話母語者。
為了查證這一點,探尋背後的原因,我們展開了粵語語音軟件的對比測試:受測者有 ChatGPT Voice、蘋果 Siri、百度文心一言,以及 suno.ai。其中,前三者均為語音助手,suno.ai 則是近期紅熱極一時的人工智能音樂生成平台。它們都具備根據提示詞用粵語或近似粵語來生成回應的能力。
就詞彙發音而言,Siri 和文心一言都發音正確,但回答比較機械和死板,其餘兩位選手則有不同程度的發音錯誤。很多時候,錯誤之處都是在用傾向普通話的方式來發音,比如「影」粵語應作「jing2」,變成了普通話「ying」;「亮晶晶」應作「zing1」,卻讀成「jing」。
蘋果Siri講廣東話繞口令
「高樓大廈」的「高」被 ChatGPT 發為「gao」,而實際應為粵拼「gou1」。土生土長的廣東人 Frank 也指出,這是一個非母語者中常見的發音錯誤,還常被本地人拿來開玩笑——因為「gao」是指涉性器官的廣東話髒話。ChatGPT每次發音表現都會略有不同,「高樓大廈」的「廈」有時能發為正確的「haa6」,有時又錯讀為「xia」,一個廣東話中不存在,近似普通話中「廈」的發音。
語法上,生成的文本明顯更偏書面,只偶爾夾雜口語化表達。遣詞造句也時常會突然切換為普通話的模式,脫口而出「買東西」(廣東話:買嘢),「用粵語來給你介紹一下香港啦」(廣東話:用粵語同你介紹下香港啦)等不符廣東話慣用口語語法的句子。
百度文心一言用廣東話介紹香港
suno.ai 在創作廣東話饒舌歌詞時,也寫出類似「街坊邊個仿得到,香港嘅特色真正靚妙」的,語義不明的歌詞;我們把這句拿給ChatGPT 評價,它指出「這句似乎是普通話的直譯,或者是普通話混合廣東話的句法(syntax)」。
作為對比,我們也發現,在它們嘗試使用普通話時,這些差錯基本都不會出現。當然,同是廣東話,廣州﹑香港﹑澳門都有不同的口音與用語差別;被視為粵語「標準」的西關口音,與香港的常用廣東白話就非常不一樣。 但ChatGPT的廣東話,最多只能說是「唔鹹唔淡」(指不熟練,半吊子)的普通話母語者會有的口音。
這是怎麼一回事?ChatGPT是不會廣東話嗎?但它沒有直接表示不支持,而是對它展開了一番想象,而這種想象明確建立在一種更強勢,更有官方背書的語言之上。這會不會成為一個問題?
語言學家兼人類學家沙皮爾(Edward Sapir)認為,口語影響着人們與世界互動的方式。當一種語言無法在人工智能時代聲張自己,這意味着什麼?對於廣東話的樣貌,我們會逐漸與AI共享同樣的想象麼?
沒有「資源」的語言
翻閱 OpenAI 公開的信息,去年ChatGPT推出的語音模式展現的對話能力,實則由三個主要部分組成:首先由開源的語音識別系統 Whisper 將口語轉為文本——再由 ChatGPT 文字對話模型生成文字回覆——最後由一個文本轉語音模型(Text-To-Speech,以下簡稱 TTS)來生成音頻,並對發音方式進行微調。
也就是說,對話內容仍然是由 ChatGPT3.5 的本體生成的,其訓練集為網絡上已經存在的大量文本,而非語音資料。
在這點上,廣東話存在顯著的劣勢,因為它很大程度上存在於口語而非書寫中。官方層面,粵語區使用的書面語為源自北方漢語的標準書面中文,它更接近普通話而非粵語;而書面粵語,也就是符合粵語口語的語法與詞彙習慣的書寫系統,又稱粵文,則主要出現於非正式的場合,比如網絡論壇中。
這種使用時常不遵循統一的規則。「大約有 30% 廣東話的字,我也不知道該怎麼寫。」 Frank 就表示,人們在網絡聊天時遇到不會寫的字,常常也只是在中文拼音鍵盤上找個發音近似的字打上去。例如廣東話中的「亂噏廿四」(lyun6 up1 jaa6 sei3;意即胡說八道),就常被寫成「亂up廿四」。雖然彼此之間大多能理解,但這進一步讓現存的粵語文本變得雜亂且標準不一。
大語言模型的出現讓人們理解了訓練集對於人工智能的重要性,以及其可能帶有的偏見。但實際上,在生成式 AI 出現之前,不同語言之間的數據資源差距就已經造成了鴻溝。大多數自然語言處理系統都是用高資源語言設計和測試的,在全球所有活躍語言中,只有 20 種被認為是「高資源」語言,比如英語、西班牙語、普通話﹑法語﹑德語﹑阿拉伯語﹑日語﹑韓語。
而擁有 8500 萬使用者的廣東話,在自然語言處理(NLP)中則時常被視為是一種低資源語言。作為深度學習的起點,維基百科的英文內容壓縮後大小為 15.6GB,繁簡混合版壓縮後為 1.7GB,粵版壓縮後僅有 52MB,與近 33 倍的差距。
同樣地,現存最大的公開語音數據集 Common Voice 中, Chinese (China) 的語音數據有 1232 小時,Chinese (Hong Kong) 為 141 小時,Cantonese 為 198 小時。
語料缺失會深刻影響到機器的自然語言處理表現。2018 年的一份研究發現,如果語料庫中的平行句子少於 13K,機器翻譯就無法實現合理的翻譯結果。這也影響到機器「聽寫」的表現。ChatGPT Voice 採用的開源 Whisper 語音識別模型(V2 版本)性能測試,粵語字符錯誤率要明顯高於普通話。
模型的文本表現顯示出粵文的資源不足,而決定我們聽感的發音和語調又是如何出錯的呢?