Holo3.1、量子化対応のPC操作AIモデルをローカル実行可能に

2026年06月02日 NVIDIA Apple Android Qwen Windows ネットワーク

モデルの主な特徴

4サイズ展開（0.8B〜35B）

FP8・Q4 GGUF・NVFP4の量子化対応

Web・デスクトップ・モバイル対応

関数呼び出しプロトコル新規対応

ローカル推論の性能

NVFP4でBF16比1.74倍の処理速度

エージェント応答を6.8秒から3.3秒に短縮

Apple Silicon等の民生機でも動作

AndroidWorldで79.3%達成

出典：Hugging Face

詳細を読む

H Companyは2026年6月2日、PC操作を自動化するコンピュータユースエージェント向けモデル「Holo3.1」ファミリーをリリースしました。Qwenベースの本モデルは0.8B・4B・9B・35B-A3Bの4サイズで提供され、初めて量子化チェックポイント（FP8・Q4 GGUF・NVFP4）に対応したことで、クラウドだけでなくローカル環境での高速推論が可能になっています。

前バージョンのHolo3ではブラウザとデスクトップが主な対象でしたが、Holo3.1ではモバイル環境への対応を大幅に強化しました。AndroidWorldベンチマークでは35B-A3Bモデルが67%から79.3%へ、4Bおよび9Bモデルも58%から72%へと精度が向上しています。また、JSON出力に加えて関数呼び出しプロトコルをネイティブサポートし、サードパーティのエージェントフレームワークとの統合を容易にしました。

ローカル推論の高速化も大きな進展です。NVIDIAのDGX Spark上でNVFP4量子化を適用した場合、BF16比で1.74倍のトークンスループットを達成しました。エージェントハーネスの最適化と組み合わせることで、平均ステップ時間は6.8秒から3.3秒へと約2倍の高速化を実現しています。

Q4 GGUF形式のチェックポイントにより、WindowsやMacの民生ハードウェア上でも完全にローカルで動作させることが可能です。Apple Siliconでの動作も確認されており、データがユーザーのネットワーク外に出ないプライバシー重視の運用ができます。モデルはHugging Faceおよび専用APIで公開されています。