IBMがGranite 4.0 1B Speechを公開、エッジ向け多言語音声認識で首位
出典:Hugging Face
詳細を読む
IBMは2026年3月9日、エッジデバイス向け音声言語モデル「Granite 4.0 1B Speech」をHugging Faceで公開した。多言語音声認識(ASR)と双方向音声翻訳(AST)に対応し、英語・仏語・独語・西語・葡語・日本語の6言語をサポートする。
前世代モデル「granite-speech-3.3-2b」と比べてパラメータ数を半分の約10億に削減しながら、英語転写の単語誤り率(WER)は改善した。投機的デコードの採用により推論速度も向上しており、リソースが限られたデバイスでの実用展開を想定した設計となっている。
今回の新機能として、日本語ASRサポートとキーワードバイアシングが追加された。キーワードバイアシングは固有名詞や略語の認識精度を高める機能で、コミュニティから要望の多かった機能を優先実装している。
性能面では、Hugging Faceが運営するOpenASRリーダーボードで1位を獲得。複数の標準ベンチマークにおいて、はるかにパラメータ数の多いモデルと同等以上の精度を達成しており、小規模モデルとしての競争力を示した。
モデルはApache 2.0ライセンスで公開され、transformersおよびvLLMでネイティブサポートされる。本番環境ではリスク検出のためにGranite Guardianとの組み合わせが推奨されており、アーキテクチャ詳細や学習データはモデルカードで確認できる。