Ai2がオープンウェイトのブラウザ操作AI「MolmoWeb」を公開

MolmoWebの特徴

スクリーンショットのみで動作
HTML解析やアクセシビリティツリー不要
40億・80億パラメータの2サイズ
ブラウザ非依存の汎用設計

訓練データの規模

3万件の人間タスク軌跡を収録
1100超のWebサイトを網羅
220万組のスクリーンショットQAペア
独自合成データでプロプラAPI不使用
詳細を読む

AI2は、ブラウザを自律操作するオープンウェイトの視覚WebエージェントMolmoWeb」を公開しました。40億および80億パラメータの2サイズで提供され、訓練データとパイプラインも完全公開される点が最大の特徴です。

従来のブラウザエージェント市場では、OpenAI OperatorAnthropiccomputer use APIなどクローズドなAPI型と、browser-useのようにモデルを自前で用意する必要があるオープン型の二択でした。MolmoWebは訓練済みモデルとデータを丸ごと公開する第三の選択肢を提示しています。

付属データセット「MolmoWebMix」は、人間のアノテーターがChrome拡張機能を使い1100以上のサイトで記録した3万件のタスク軌跡と、59万件のサブタスク実演を含みます。これは公開された人間によるWeb操作データとしては過去最大規模です。

合成データの生成にはテキストベースのアクセシビリティツリーエージェントのみを使用し、OpenAIAnthropicなどのプロプライエタリな視覚エージェントは一切利用していません。さらに220万組のスクリーンショットQAペアがGUI認識能力を強化しています。

ベンチマーク評価では、WebVoyagerやOnline-Mind2Webなど4つのライブWebサイトテストでオープンウェイト勢をリードし、GPT-4oベースの旧世代APIエージェントも上回ったと報告されています。一方、テキスト読み取り精度やドラッグ操作、ログイン・金融取引タスクには未対応という制約も明示されています。