Ai2がオープンウェイトのブラウザ操作AI「MolmoWeb」を公開
MolmoWebの特徴
スクリーンショットのみで動作
HTML解析やアクセシビリティツリー不要
40億・80億パラメータの2サイズ
ブラウザ非依存の汎用設計
出典:VentureBeat
詳細を読む
AI2は、ブラウザを自律操作するオープンウェイトの視覚Webエージェント「MolmoWeb」を公開しました。40億および80億パラメータの2サイズで提供され、訓練データとパイプラインも完全公開される点が最大の特徴です。
従来のブラウザエージェント市場では、OpenAI OperatorやAnthropicのcomputer use APIなどクローズドなAPI型と、browser-useのようにモデルを自前で用意する必要があるオープン型の二択でした。MolmoWebは訓練済みモデルとデータを丸ごと公開する第三の選択肢を提示しています。
付属データセット「MolmoWebMix」は、人間のアノテーターがChrome拡張機能を使い1100以上のサイトで記録した3万件のタスク軌跡と、59万件のサブタスク実演を含みます。これは公開された人間によるWeb操作データとしては過去最大規模です。
合成データの生成にはテキストベースのアクセシビリティツリーエージェントのみを使用し、OpenAIやAnthropicなどのプロプライエタリな視覚エージェントは一切利用していません。さらに220万組のスクリーンショットQAペアがGUI認識能力を強化しています。
ベンチマーク評価では、WebVoyagerやOnline-Mind2Webなど4つのライブWebサイトテストでオープンウェイト勢をリードし、GPT-4oベースの旧世代APIエージェントも上回ったと報告されています。一方、テキスト読み取り精度やドラッグ操作、ログイン・金融取引タスクには未対応という制約も明示されています。