Breeze ASR 25：聯發科在在地化語音辨識的重大突破

雖然像 OpenAI 的 Whisper 這樣的全球性語音模型改變了 ASR（自動語音辨識）的版圖，但它們往往在處理區域細節時顯得吃力。在台灣，中英混用（Code-switching）（在同一個句子中混合兩種語言）以及特定的在地口音非常普遍，通用模型在這些情況下往往表現不佳。

為了結解決這個問題，聯發創新基地（MediaTek Research） 於 2025 年 7 月發布了 Breeze ASR 25（MR Breeze ASR 25）。這款開源強者專為理解台灣人的實際說話方式而設計。

Breeze ASR 25 是基於 OpenAI 的 Whisper-large-v2 進行微調（Fine-tuning）的第二代模型。透過利用強大的基礎架構，並在約 10,000 小時 的在地高品質音訊數據上進行訓練，聯發科打造出了一款既熟悉又在區域需求上顯著更強的模型。

Breeze ASR 25 的真正價值在於它處理台灣語言環境複雜性的能力。

台灣 ASR 面臨的最大障礙之一是頻繁的中英夾雜。相較於原始的 Whisper 模型，Breeze ASR 25 在中英混用辨識的準確度上實現了驚人的 56% 提升。無論是會議中的專業術語還是日常閒聊，該模型都能流暢地處理語言間的轉換。

通用模型常會誤解台灣特有的發音或詞彙。Breeze ASR 25 在在地情境下的整體辨識準確度提升了近 10%，確保「發生什麼事」不會被誤聽為「花生什麼事」。

對於創作者和開發者來說，時間點至關重要。Breeze ASR 25 具有強化的**時間戳記對齊（Timestamp Alignment）**功能，使其成為自動字幕生成（SRT）和影片標題製作的優質選擇。

在數據隱私備受關注的時代，Breeze ASR 25 被設計為可完全在裝置端執行（Edge AI）。它可以被量化到 1 GB 以下，使其能在僅有 4GB VRAM 的筆記型電腦或 Apple Silicon Mac（透過 MLX 優化）上穩定執行。

Breeze ASR 25 不僅僅是另一個版本的 Whisper；它是一款尊重並理解台灣獨特語言文化的專業工具。透過將 15.5 億參數的大規模與在地化微調相結合，聯發創新基地為社群提供了一款高性能、商業友好的模型，讓我們離真正自然的人機互動更近了一步。

您現在可以在 Hugging Face 的 MediaTek-Research/Breeze-ASR-25 路徑下找到模型權重並開始構建您的應用。