Reachy Miniが完全ローカルAI会話に対応

完全ローカル音声パイプライン

クラウド不要で音声AI会話を実現
VAD・STT・LLM・TTSの4段構成
Silero VADとParakeet STTを採用
Qwen3-TTSで多言語音声合成

柔軟なLLM構成と導入手順

llama.cppやMLXなど複数推論基盤に対応
Gemma 4推奨、vLLMも利用可能
brew一発でインストール完了
LAN経由でロボットと接続
詳細を読む

Hugging Faceは2026年5月27日、小型ヒューマノイドロボット「Reachy Mini」の音声会話機能を完全にローカル環境で実行する方法を公開しました。従来はクラウドへの音声送信が必要でしたが、同社のspeech-to-speechライブラリを使い、VAD(音声区間検出)からSTT(音声認識)、LLM(大規模言語モデル)、TTS(音声合成)までの全パイプラインをローカルマシン上で動作させることが可能になりました。

技術構成はカスケード方式を採用しています。音声区間検出にはSilero VAD v5、音声認識にはParakeet-TDT 0.6B v3、音声合成にはQwen3-TTSを推奨構成として選定しています。各コンポーネントは独立しており、より高品質なモデルが登場すれば個別に差し替えられる設計です。

LLMの推論基盤はllama.cpp、MLX、Transformers、vLLMなど複数の選択肢に対応しています。推奨モデルはGemma 4のE4B量子化版で、llama.cppでは`brew install`一発で導入でき、64Kコンテキストウィンドウとフラッシュアテンションによる高速推論が可能です。Apple Silicon搭載MacではMLX経由でQwen3-4Bも低遅延で動作します。

プライバシーとコスト面のメリットも大きいです。音声データが一切外部に送信されず、APIの従量課金も不要になります。ロボット推論サーバーを別マシンで動かす場合も、LAN内のIPアドレスを指定するだけで接続できます。

Responses APIプロトコルに準拠しているため、ローカル推論だけでなくHugging Face Inference EndpointsやOpenAI互換プロバイダーへの接続も同じインターフェースで切り替え可能です。vLLM 0.21.0以降ではMulti-Token Predictionによるさらなる低遅延化も実現しています。