Holo3.1、量子化対応のPC操作AIモデルをローカル実行可能に

モデルの主な特徴

4サイズ展開(0.8B〜35B)
FP8・Q4 GGUF・NVFP4の量子化対応
Web・デスクトップ・モバイル対応
関数呼び出しプロトコル新規対応

ローカル推論の性能

NVFP4でBF16比1.74倍の処理速度
エージェント応答を6.8秒から3.3秒に短縮
Apple Silicon等の民生機でも動作
AndroidWorldで79.3%達成
詳細を読む

H Companyは2026年6月2日、PC操作を自動化するコンピュータユースエージェント向けモデル「Holo3.1」ファミリーをリリースしました。Qwenベースの本モデルは0.8B・4B・9B・35B-A3Bの4サイズで提供され、初めて量子化チェックポイント(FP8・Q4 GGUF・NVFP4)に対応したことで、クラウドだけでなくローカル環境での高速推論が可能になっています。

前バージョンのHolo3ではブラウザとデスクトップが主な対象でしたが、Holo3.1ではモバイル環境への対応を大幅に強化しました。AndroidWorldベンチマークでは35B-A3Bモデルが67%から79.3%へ、4Bおよび9Bモデルも58%から72%へと精度が向上しています。また、JSON出力に加えて関数呼び出しプロトコルをネイティブサポートし、サードパーティのエージェントフレームワークとの統合を容易にしました。

ローカル推論の高速化も大きな進展です。NVIDIAのDGX Spark上でNVFP4量子化を適用した場合、BF16比で1.74倍のトークンスループットを達成しました。エージェントハーネスの最適化と組み合わせることで、平均ステップ時間は6.8秒から3.3秒へと約2倍の高速化を実現しています。

Q4 GGUF形式のチェックポイントにより、WindowsやMacの民生ハードウェア上でも完全にローカルで動作させることが可能です。Apple Siliconでの動作も確認されており、データがユーザーのネットワーク外に出ないプライバシー重視の運用ができます。モデルはHugging Faceおよび専用APIで公開されています。