在地化 AI

Breeze ASR 25:聯發科在在地化語音辨識的重大突破

認識 Breeze ASR 25,這是聯發創新基地(MediaTek Research)最新的開源模型。針對台灣國語與中英混用進行優化,相較於 OpenAI Whisper,它在混合語音辨識上的表現提升了 56%。了解為什麼這款擁有 15.5 億參數的模型是在地 AI 應用的遊戲規則改變者。

Breeze ASR 25:聯發科在在地化語音辨識的重大突破

雖然像 OpenAI 的 Whisper 這樣的全球性語音模型改變了 ASR(自動語音辨識)的版圖,但它們往往在處理區域細節時顯得吃力。在台灣,中英混用(Code-switching)(在同一個句子中混合兩種語言)以及特定的在地口音非常普遍,通用模型在這些情況下往往表現不佳。

為了結解決這個問題,聯發創新基地(MediaTek Research) 於 2025 年 7 月發布了 Breeze ASR 25(MR Breeze ASR 25)。這款開源強者專為理解台灣人的實際說話方式而設計。


15.5 億參數的力量

Breeze ASR 25 是基於 OpenAI 的 Whisper-large-v2 進行微調(Fine-tuning)的第二代模型。透過利用強大的基礎架構,並在約 10,000 小時 的在地高品質音訊數據上進行訓練,聯發科打造出了一款既熟悉又在區域需求上顯著更強的模型。

核心技術規格:

  • 基礎架構:Whisper-large-v2 (Encoder-Decoder)
  • 模型大小:約 15.5 億(1.55B)參數(權重約 3.1 GB)
  • 開源授權Apache 2.0(允許商業用途)
  • 語言重點:繁體中文(台灣國語)與英文。

為什麼 Breeze ASR 25 脫穎而出

Breeze ASR 25 的真正價值在於它處理台灣語言環境複雜性的能力。

1. 卓越的中英混用辨識表現

台灣 ASR 面臨的最大障礙之一是頻繁的中英夾雜。相較於原始的 Whisper 模型,Breeze ASR 25 在中英混用辨識的準確度上實現了驚人的 56% 提升。無論是會議中的專業術語還是日常閒聊,該模型都能流暢地處理語言間的轉換。

2. 在地化準確度

通用模型常會誤解台灣特有的發音或詞彙。Breeze ASR 25 在在地情境下的整體辨識準確度提升了近 10%,確保「發生什麼事」不會被誤聽為「花生什麼事」。

3. 高精準度的時間戳記

對於創作者和開發者來說,時間點至關重要。Breeze ASR 25 具有強化的**時間戳記對齊(Timestamp Alignment)**功能,使其成為自動字幕生成(SRT)和影片標題製作的優質選擇。

4. 隱私與邊緣端優化

在數據隱私備受關注的時代,Breeze ASR 25 被設計為可完全在裝置端執行(Edge AI)。它可以被量化到 1 GB 以下,使其能在僅有 4GB VRAM 的筆記型電腦或 Apple Silicon Mac(透過 MLX 優化)上穩定執行。


實際應用場景

  • 自動字幕生成:非常適合習慣中英混用的台灣 YouTuber 和內容創作者。
  • 會議紀錄:適用於經常在中文對話中使用英文術語的企業環境。
  • 智慧助理:為智慧家庭設備和客服機器人提供更自然、具備在地感知的語音介面。
  • 機密轉錄:由於可以在地端執行,它是處理不便上傳雲端的法律或醫療轉錄的完美工具。

結論

Breeze ASR 25 不僅僅是另一個版本的 Whisper;它是一款尊重並理解台灣獨特語言文化的專業工具。透過將 15.5 億參數的大規模與在地化微調相結合,聯發創新基地為社群提供了一款高性能、商業友好的模型,讓我們離真正自然的人機互動更近了一步。

您現在可以在 Hugging FaceMediaTek-Research/Breeze-ASR-25 路徑下找到模型權重並開始構建您的應用。