Hugging FaceとCerebras、低遅延の音声AI実現

2026年07月01日 Google NVIDIA Cerebras Qwen アシスタントエンジニア

協業の概要

Cerebrasの高速推論採用

音声対話の遅延を短縮

人間並みの自然な応答

技術構成

Gemma 4 31Bを言語モデルに

モジュール式の完全公開設計

Reachy Miniロボットで実運用

出典：Hugging Face

詳細を読む

Hugging FaceとCerebrasは2026年7月1日、リアルタイム音声AIの新たなデモを公開しました。両社は音声から音声へと応答するspeech-to-speechのパイプラインを構築し、Cerebrasの高速推論を組み合わせることで、従来課題だった応答遅延を大幅に短縮しました。人間同士の会話に近い、自然でよどみないやり取りを実現している点が特徴です。

音声AIでは、応答までの遅延が利用体験を左右する重要な要素です。モデルの品質は着実に向上してきた一方で、多くの実用システムでは中央値の応答速度は許容できても、P95のような一部の遅い応答が数秒に及び、会話の信頼性を損なっていました。両社はこのばらつきの大きい「ロングテール」の遅延こそが問題だと指摘します。

パイプラインは、音声認識にNvidiaのParakeet、言語モデルにGoogle DeepMindのGemma 4 31B、音声合成にAlibabaのQwen3TTSを用いる構成です。各層はいずれもオープンで、開発者が検査・改変・拡張できるモジュール式になっており、アシスタントやロボット、研究用途に合わせて自由に差し替えられます。

Cerebrasが担うのは、パイプライン最大のボトルネックである言語モデルの応答時間の解消です。推論を高速かつ安定させることで、他の構成要素の性能も引き出せると両社は説明します。採用の狙いはコスト削減ではなく、低遅延と予測可能な性能にあるといいます。

この音声パイプラインは、すでに9,000台超が稼働するReachy Miniロボットを支えています。ロボットや音声アシスタント、身体性を持つAIにとって、応答の速さは体験を「生きている」ように感じさせる核心的な要素です。両社はデモとコードを公開し、次世代の対話型AIに向けた開発者の参加を呼びかけています。