Alibaba、環境を予測する世界モデルAgentWorld公開

発想の逆転

環境の応答を予測する世界モデル
7領域を単一構造で統合
行動選択ではなく次状態を学習
1000万超の対話軌跡で3段階学習

学習効果と懸念

制御シミュ訓練が実環境を上回る成績
未学習ベンチ含む7指標で改善
自作ベンチで僅差の懸念指摘
詳細を読む

中国AlibabaのQwenチームは6月24日、エージェントの行動ではなく環境が返す状態を予測する世界モデル「Qwen-AgentWorld」を公開しました。MCP検索、ターミナル、ソフトウェア開発、Android、Web、OSの7領域を単一アーキテクチャで扱い、5月に発表した35時間自律実行モデルに続く自律エージェント強化の一環です。狙いは、本番環境では稀にしか現れないエッジケースを学習に組み込むことにあります。

従来のエージェントモデルは「環境を見て次に何をするか」を学びますが、本モデルはその逆で「行動の結果、環境が何を返すか」を予測します。論文はこれを言語世界モデルと呼び、世界モデリングこそ汎用エージェントへの欠けたピースだと主張しています。実検索や実ターミナルでは低ディスク容量などの条件を任意に注入できないという、大規模学習の壁に対する答えです。

両モデルはいずれもMixture-of-Experts構成で、35Bは3B、397Bは17Bだけがトークンごとに活性化し、256Kの文脈長に対応します。GUI領域ではスクリーンショットではなくアクセシビリティツリーやUI階層をテキストとして扱います。35Bの重みとベンチAgentWorldBenchはApache 2.0で公開され、397Bの重みは非公開です。

制御シミュレーション内で訓練したエージェントは、実環境のみで訓練した場合を上回りました。狙ったかく乱を注入することでMCPMarkは24.6から33.8へ上昇し、検索では完全に架空の世界で訓練したエージェントが実タスクへ転移し、WideSearchのF1が34.02から50.31へ伸びました。事前学習をウォームアップに用いると、エージェント特化の微調整なしでBFCL v4が62.29から71.25へ改善しています。

一方でX上の研究者からは慎重な指摘も相次ぎました。「Alibabaが同じ論文で作って公開したベンチを0.46差で上回っただけ」との声や、シミュレーション訓練は過学習しやすく「世界モデルが綺麗すぎるとタスクではなくモデルを学んでしまう」との懸念が挙がっています。非制御と制御シミュの差は、利得が制御機構に大きく依存することを示唆します。

エージェント基盤を構築する開発チームにとって、本研究は実環境RLと静的ベンチの中間に制御シミュレーションという第3の選択肢を示しました。合成環境は近道ではなく実環境RLを補完する正当な学習層であり、未学習ベンチでも効果が出たウォームアップの結果は、環境理解を開発のより早い段階に置くべきだと示しています。