你把一套在英文世界表現很好的 AI 客服系統搬到台灣,第一通電話就出狀況了:客人說「我要問三點半的班」,系統把「班」聽成了「斑」,開始查詢不知道什麼東西。再來一通,客人用台語夾雜國語說了一段地址,AI 直接放棄解析,默默轉接真人。
這不是極端案例。任何在台灣市場實際部署過語音 AI 的團隊,都會碰到類似的問題。中文語音辨識的難度,遠比大多數人以為的還要高——而且這個「難」不是靠砸更多 GPU 就能解決的。
中文語音辨識比英文難在哪?四個技術瓶頸
大部分主流的 ASR(Automatic Speech Recognition)引擎,不管是 OpenAI 的 Whisper、Google 的 Speech-to-Text,還是 Amazon Transcribe,都是用大量英文語料訓練出來的。英文支援當然是最成熟的,但一到中文——特別是台灣的中文——就會碰到幾個結構性的挑戰。
挑戰一:聲調是最大的變數
英文是「重音語言」,中文是「聲調語言」。這個根本差異讓中文 ASR 的錯誤率天生就比英文高。
同一個音節「ma」,在中文裡因為聲調不同,可以是「媽」(一聲)、「麻」(二聲)、「馬」(三聲)、「罵」(四聲)。在日常對話中,語速加快、語調起伏,聲調的邊界會變得模糊,ASR 引擎就很容易判斷錯誤。
更麻煩的是,台灣人說話的聲調跟中國普通話有系統性的差異。大量用中國語料訓練出來的模型,碰到台灣腔就會出現額外的辨識偏差。台灣大哥大的 myVoca 模型在政府質詢會議語料上做到了約 97% 的字正確率,但這是在相對清晰的發言環境下的成績——換到嘈雜的客服電話場景,數字會明顯下滑。
挑戰二:台語混用是常態,不是例外
在台灣,一通客服電話裡同時出現國語和台語是非常普遍的。尤其是年長客群,很可能上一句用國語說完訂單編號,下一句就切換成台語描述問題。
這種「code-switching」(語碼轉換)對 ASR 引擎來說是噩夢。大部分模型的設計假設是:一段語音只會有一種語言。當兩種語言在同一句話裡交替出現,模型的辨識信心度會急劇下降。
目前學術界在台語 ASR 上的資源還非常有限。Formosa Speech Recognition Challenge 是台灣少數推動台語語音辨識的學術競賽,但公開可用的台語語料庫規模遠小於普通話,更不用說「國台語混用」的語料幾乎不存在。
挑戰三:地址和人名是辨識的重災區
在客服場景中,最關鍵的資訊往往是地址、人名、和產品型號這些專有名詞。偏偏這些是 ASR 最容易搞錯的。
舉個例子:客人說「我住在三重區重新路三段」,這句話裡「重」出現了兩次但讀音不同(ㄔㄨㄥˊ vs ㄓㄨㄥˋ),而且「三重」和「三段」的「三」語音幾乎一樣。再加上台灣地址的門牌格式(幾巷幾弄幾號幾樓之幾),數字密度極高,一個數字聽錯,整個地址就廢了。
人名更是災難。中文姓名組合的可能性太多,而且很多名字用的是低頻字。ASR 引擎碰到沒見過的字,通常會用最高概率的同音字替代——結果就是把「詠恩」辨識成「永恩」、把「祐誠」辨識成「又成」。
挑戰四:電話音質 vs 高清錄音的落差
這一點經常被忽略。大部分 ASR 模型的訓練資料來自高品質的錄音環境(錄音室、Podcast、YouTube 影片),頻率範圍寬、雜訊低。但真實的電話通話是透過 8kHz 取樣率的窄頻編碼傳輸的,音質跟錄音室差了一個量級。
在電話環境下,背景噪音(車聲、風聲、其他人說話)、回音、訊號斷續,都會進一步拉低辨識率。一個在安靜環境下可以做到 95% 準確率的模型,到了真實電話線路上可能掉到 80% 以下——對客服場景來說,這個差距是致命的。
台灣企業評估 AI 語音客服時該問的五個問題
了解了這些技術挑戰之後,如果你是一個正在評估台灣 AI 客服方案的企業決策者,在挑選平台的時候,有幾個問題一定要問清楚。
第一,你們的 ASR 引擎是用什麼語料訓練的? 如果答案是「Whisper」或「Google Speech-to-Text」但沒有任何針對台灣口音的微調,那在實際部署時的辨識品質會打折扣。關鍵是有沒有用台灣本地的語料做過 fine-tune。
第二,支不支援台語?程度到哪裡? 「支援台語」跟「支援國台語混用」是兩件完全不同的事。前者只是多一個語言選項,後者才是台灣客服場景真正需要的能力。
第三,電話音質環境下的辨識率是多少? 很多廠商會給你「在標準測試集上的辨識率」,但你應該要求看的是「在真實電話錄音上的辨識率」。兩者的差距可能超過 10 個百分點。
第四,能不能自訂詞庫? 你的產品名、你的服務項目、你客戶常提到的地址——這些都需要能夠透過自訂詞庫來提升辨識率。如果平台不支援,那在專業術語和專有名詞上的表現會很差。
第五,端到端延遲是多少毫秒? 語音辨識不是做完就好,還要考慮從客人說完話到 AI 開始回應的總延遲。超過 800 毫秒,對話體驗就會開始變得不自然。辨識準確率和回應速度之間的平衡,是中文語音 AI 系統設計的核心取捨。
在地化不是翻譯,是重新建構
回到最根本的問題:為什麼國際 AI 客服平台在台灣容易踢到鐵板?
答案不是「他們技術不好」,而是語音 AI 的在地化遠不只是「把介面翻譯成中文」這麼簡單。真正的在地化 AI,需要從語料收集、聲學模型訓練、語言模型調整、到對話流程設計,每一層都針對目標市場做深度適配。
這也是為什麼我們看到越來越多台灣本土的語音技術團隊崛起。從台灣大的 myVoca、華碩旗下的 AICS、到專注在特定場景的新創團隊,都在嘗試解決「讓 AI 聽懂台灣人說話」這個看似簡單、實際上極為困難的問題。
Pathors 從第一天就針對台灣中文語音場景做設計,包含台灣口音的 ASR 優化、自訂詞庫支援、以及電話音質環境下的辨識調校。因為我們深知:對一個台灣企業來說,AI 客服能不能聽懂客人在說什麼,才是一切的起點。

Brandon Lu
COO
致力於運用 AI 技術改造客戶服務和商業營運。