Cohereが音声認識モデルをオープンソースで公開
出典:TechCrunch
詳細を読む
エンタープライズAI企業のCohereは2026年3月26日、同社初の音声モデル「Transcribe」をオープンソースで公開しました。議事録作成や音声分析などの用途を想定した自動音声認識モデルで、APIを通じて無料で利用できます。
Transcribeは20億パラメータと比較的軽量に設計されており、消費者向けGPUでの自己ホスティングが可能です。英語、日本語、中国語、韓国語など14言語に対応し、1分間で525分の音声を処理できる高いスループットを実現しています。
Hugging FaceのOpen ASRリーダーボードでは、平均単語誤り率(WER)5.42を達成し、Zoom Scribe v1やIBM Granite 4.0、ElevenLabs Scribe v2などの競合モデルを上回りました。人間評価者による精度・一貫性・実用性の評価でも平均勝率61%を記録しています。
一方で、ポルトガル語、ドイツ語、スペイン語の文字起こしでは競合に後れを取る課題も残っています。Cohereは今後、同モデルを企業向けエージェント統合基盤「North」やマネージド推論プラットフォーム「Model Vault」にも展開する計画です。
音声認識モデル市場は、GranolaやWispr Flowなどの議事録・ディクテーションアプリの需要拡大に伴い急成長しています。Cohereは2025年の年間経常収益が2億4000万ドルに達したとされ、IPOの可能性も示唆されており、今回の音声モデル投入で事業領域の拡大を図ります。