Holo3.1、量子化対応のPC操作AIモデルをローカル実行可能に
出典:Hugging Face
詳細を読む
H Companyは2026年6月2日、PC操作を自動化するコンピュータユースエージェント向けモデル「Holo3.1」ファミリーをリリースしました。Qwenベースの本モデルは0.8B・4B・9B・35B-A3Bの4サイズで提供され、初めて量子化チェックポイント(FP8・Q4 GGUF・NVFP4)に対応したことで、クラウドだけでなくローカル環境での高速推論が可能になっています。
前バージョンのHolo3ではブラウザとデスクトップが主な対象でしたが、Holo3.1ではモバイル環境への対応を大幅に強化しました。AndroidWorldベンチマークでは35B-A3Bモデルが67%から79.3%へ、4Bおよび9Bモデルも58%から72%へと精度が向上しています。また、JSON出力に加えて関数呼び出しプロトコルをネイティブサポートし、サードパーティのエージェントフレームワークとの統合を容易にしました。
ローカル推論の高速化も大きな進展です。NVIDIAのDGX Spark上でNVFP4量子化を適用した場合、BF16比で1.74倍のトークンスループットを達成しました。エージェントハーネスの最適化と組み合わせることで、平均ステップ時間は6.8秒から3.3秒へと約2倍の高速化を実現しています。
Q4 GGUF形式のチェックポイントにより、WindowsやMacの民生ハードウェア上でも完全にローカルで動作させることが可能です。Apple Siliconでの動作も確認されており、データがユーザーのネットワーク外に出ないプライバシー重視の運用ができます。モデルはHugging Faceおよび専用APIで公開されています。