Computer Useに関する最新ニュース（15件） | 【AI Times】生成AIやLLMの最新情報・ニュース

Anthropic有料会員が急増、年初から倍増以上

2026年03月28日 OpenAI Anthropic ChatGPT Claude Claude Code アシスタント広告エンジニアサム・アルトマン米国 Dario Amodei Computer Use

急成長の背景

スーパーボウルCMが話題に

国防総省との対立で注目度急上昇

1〜2月に新規有料会員が過去最多

休眠ユーザーの復帰も記録的水準

製品と競合状況

Claude Code等の開発者ツールが牽引

Computer Use機能が新たな加入を促進

ChatGPTとの差は依然として大きい

新規会員の大半は月額20ドルのPro層

詳細を見る

AnthropicのAIアシスタント「Claude」の有料会員数が急増しています。約2800万人の米国消費者の匿名クレジットカード取引データを分析したIndagari社の調査で、1〜2月にかけて過去最多の新規有料登録が確認されました。Anthropic広報も、有料会員が年初から倍増以上になったと認めています。

急成長の大きなきっかけは、2月のスーパーボウルで放映されたCMです。ChatGPTが広告を表示する方針を皮肉り、Claudeは広告を出さないと宣言した内容が話題を呼び、アプリがトップ10入りを果たしました。OpenAIのサム・アルトマンCEOも反応するなど、大きな注目を集めました。

さらに1月下旬から表面化した米国防総省との対立も追い風となりました。Anthropicは自社AIの自律的殺傷作戦や米国民の大量監視への利用を拒否し、CEOダリオ・アモデイ氏が2月26日に毅然とした声明を発表。この期間中、新規ユーザーの伸びが特に顕著でした。

製品面では、1月にリリースした開発者向けツールClaude CodeやClaude Coworkが有料会員の増加を牽引しています。さらに今週公開されたComputer Use機能も加入を促進しており、PCを自律的に操作できるこの機能は無料ユーザーには提供されていません。

ただし、消費者市場ではChatGPTとの差は依然として大きいのが現状です。OpenAIが国防総省との契約を発表した直後にアンインストールが急増したものの、同社は引き続き高い新規有料会員獲得ペースを維持しており、消費者向けAIプラットフォームとして最大の地位を保っています。

出典：TechCrunch

Ai2がオープンウェイトのブラウザ操作AI「MolmoWeb」を公開

2026年03月24日 OpenAI Anthropic Chrome GPT-4 オープンウェイト品質保証エージェントベンチマーク Computer Use

MolmoWebの特徴

スクリーンショットのみで動作

HTML解析やアクセシビリティツリー不要

40億・80億パラメータの2サイズ

ブラウザ非依存の汎用設計

訓練データの規模

3万件の人間タスク軌跡を収録

1100超のWebサイトを網羅

220万組のスクリーンショットQAペア

独自合成データでプロプラAPI不使用

詳細を見る

AI2は、ブラウザを自律操作するオープンウェイトの視覚Webエージェント「MolmoWeb」を公開しました。40億および80億パラメータの2サイズで提供され、訓練データとパイプラインも完全公開される点が最大の特徴です。

従来のブラウザエージェント市場では、OpenAI OperatorやAnthropicのcomputer use APIなどクローズドなAPI型と、browser-useのようにモデルを自前で用意する必要があるオープン型の二択でした。MolmoWebは訓練済みモデルとデータを丸ごと公開する第三の選択肢を提示しています。

付属データセット「MolmoWebMix」は、人間のアノテーターがChrome拡張機能を使い1100以上のサイトで記録した3万件のタスク軌跡と、59万件のサブタスク実演を含みます。これは公開された人間によるWeb操作データとしては過去最大規模です。

合成データの生成にはテキストベースのアクセシビリティツリーエージェントのみを使用し、OpenAIやAnthropicなどのプロプライエタリな視覚エージェントは一切利用していません。さらに220万組のスクリーンショットQAペアがGUI認識能力を強化しています。

ベンチマーク評価では、WebVoyagerやOnline-Mind2Webなど4つのライブWebサイトテストでオープンウェイト勢をリードし、GPT-4oベースの旧世代APIエージェントも上回ったと報告されています。一方、テキスト読み取り精度やドラッグ操作、ログイン・金融取引タスクには未対応という制約も明示されています。

出典：VentureBeat

Google、ブラウザAIエージェント開発チームを再編

2026年03月19日 Google OpenAI Anthropic NVIDIA Perplexity Gemini ChatGPT Claude Claude Code Chrome Codex OpenClaw Comet アシスタントコーディング医療エージェント Computer Use

開発体制の転換

Project Marinerチーム再編

研究者が高優先度プロジェクトへ異動

Gemini Agentに技術統合

業界の潮流変化

OpenClaw旋風で戦略転換

ブラウザ型の利用者数低迷

コーディング型エージェントが台頭

CLI操作が10〜100倍効率的

今後の展望

GUI操作は80/20の補完的役割

汎用エージェントへの進化が焦点

詳細を見る

GoogleがChromeブラウザを操作するAIエージェント「Project Mariner」の開発チームを再編したことがWIREDの取材で明らかになりました。研究プロトタイプに携わっていたGoogle Labsのスタッフの一部が、より優先度の高いプロジェクトへ異動しています。

Googleの広報担当者はこの変更を認めたうえで、Project Marinerで培ったコンピュータ操作技術は同社のエージェント戦略に引き続き組み込まれると説明しています。すでに一部の機能は最近発表されたGemini Agentに統合されています。

背景にはOpenClawなど高性能コーディングエージェントの急速な台頭があります。NVIDIAのジェンスン・ファンCEOはOpenClawを「エージェント型コンピュータの新しいOS」と評し、「すべての企業がOpenClaw戦略を持つ必要がある」と述べました。

ブラウザエージェントの普及は期待を下回っています。Perplexityの「Comet」は週間アクティブユーザー280万人にとどまり、OpenAIのChatGPT Agentも100万人未満に減少しました。スクリーンショットベースの処理は計算コストが高く、テキストベースのCLI操作と比べ10〜100倍のステップが必要とされています。

一方で、コンピュータ操作エージェントが不要になるわけではないとの見方もあります。Simular CEOのアン・リー氏は「ターミナルで多くの問題を解決できるが、GUIでしか対応できない場面は常に存在する」と指摘しています。医療保険サイトやレガシーソフトウェアなど、APIが存在しない領域では引き続き重要な役割を果たすと述べました。

AI各社はコーディングエージェントを汎用アシスタントの基盤として位置づけ始めています。OpenAIはCodexをChatGPT内の汎用エージェントにする構想を示し、AnthropicはターミナルなしでClaude Codeを使える「Claude Cowork」をすでに提供しています。

出典：WIRED

a16zがRL環境構築のDeeptuneにシリーズA主導出資

2026年03月19日 Claude GPT-5 Opus 創業者強化学習インフラスタートアップベンチマーク Andreessen Horowitz Computer Use

Deeptuneの技術基盤

強化学習環境を専門構築

PC操作・コード実行の訓練基盤提供

OSWorld等ベンチマーク向上に貢献

主要AI研究所と緊密に連携

RL環境の産業的意義

静的データから動的環境へ転換

データ問題が工学・計算問題に変化

Opus 4.6が人間基準72.36%を突破

端末操作の完全自動化へ前進

詳細を見る

Andreessen Horowitz（a16z）は、強化学習（RL）環境を構築するスタートアップDeeptuneのシリーズAラウンドを主導したと発表しました。Deeptuneはコンピュータ操作とコード実行に特化したRL環境を開発しています。

AIモデルがテキスト予測から実世界のタスク実行へ移行するなか、ツール操作やインターフェース操作を学習するための構造化された環境が不可欠になっています。Deeptuneは現実的で測定可能、かつモデル進化に適応する動的な訓練環境を提供します。

同社の技術はすでに主要ベンチマークの向上に寄与しています。OSWorldではClaude Opus 4.6が72.7%を記録し、人間の基準値72.36%を超えました。GPT-5.4も75%に到達するなど、コンピュータ操作能力は急速に進歩しています。

創業者兼CEOのTim Lupo氏は、技術的深度とプロダクト感覚を兼ね備えた人物として評価されています。主要AI研究所の研究者と緊密な関係を築き、高品質な環境・タスク・評価フレームワークを迅速に開発してきました。

a16zは、AI進歩の原動力が「より良いデータセット」から「より良い環境」へ移行すると予測しています。Deeptuneはこの転換の最前線に位置し、AIスタックの重要なインフラ層を担う企業として期待されています。

出典：a16z.com

OpenAI、GPT-5.4 miniとnanoを公開

2026年03月17日 OpenAI ChatGPT Codex GPT-5 エンジニア推論コーディングエージェントコンテキストベンチマーク Computer Use

性能と価格

GPT-5 mini比2倍以上高速

SWE-Bench Proで54.4%達成

nano入力100万トークン0.20ドル

mini入力100万トークン0.75ドル

主な用途

コーディング補助の高速化

サブエージェント並列処理

スクリーンショット解析対応

Codexでコスト3分の1

詳細を見る

OpenAIは2026年4月2日、小型高性能モデルGPT-5.4 miniとGPT-5.4 nanoをAPI・Codex・ChatGPTで公開しました。大量処理ワークロード向けに設計された両モデルは、速度とコスト効率を重視しています。

GPT-5.4 miniは前世代のGPT-5 miniと比較して、コーディング・推論・マルチモーダル理解・ツール使用の全領域で大幅に改善されています。処理速度は2倍以上に向上し、複数のベンチマークで上位モデルGPT-5.4に迫る性能を示しています。

ベンチマークではSWE-Bench Proで54.4%、OSWorld-Verifiedで72.1%を達成しました。特にOSWorldではGPT-5.4の75.0%にほぼ匹敵し、コンピュータ操作タスクでの実用性が際立っています。

料金体系はGPT-5.4 miniが入力100万トークンあたり0.75ドル、出力4.50ドルです。nanoはさらに安価で入力0.20ドル、出力1.25ドルに設定されています。両モデルとも40万トークンのコンテキストウィンドウに対応します。

開発者にとって注目すべきはサブエージェント構成への最適化です。GPT-5.4が計画・判断を担い、miniやnanoが並列で個別タスクを高速処理する構成が推奨されており、Codexではmini利用時のクォータ消費が30%で済むため、コスト効率の高い開発体験を実現します。

出典：OpenAI公式 | vercel.com

H Company、高スループット型PC操作AIモデルHolotron-12Bを公開

2026年03月17日 NVIDIA 推論 GPU 画像エージェントコンテキストベンチマークトランスフォーマー教師 Hugging Face Computer Use

推論性能の飛躍

SSMハイブリッド構造を採用

H100単体で8.9kトークン/秒達成

Holo2-8B比で2倍超のスループット

KVキャッシュ不要でメモリ効率向上

エージェント性能

WebVoyagerスコア35.1%→80.5%に向上

UI操作・画面理解の精度大幅改善

NVIDIA Nemotronベースを微調整

次世代Nemotron 3 Omniも予告

詳細を見る

H Companyは2026年3月17日、NVIDIAのNemotron-Nano-2 VLモデルをベースにしたマルチモーダルコンピュータ操作エージェントモデル「Holotron-12B」をHugging Faceで公開しました。本モデルは画面認識・操作に特化し、量産環境での高スループット推論を目指して開発されたものです。

Holotron-12Bの推論効率を支えるのは、状態空間モデル（SSM）とアテンション機構のハイブリッドアーキテクチャです。従来のTransformerが抱える二次計算コストを回避し、長いコンテキストや複数画像を含むエージェント的ワークロードで優れたスケーラビリティを実現しています。

ベンチマーク評価では、WebVoyagerスコアがベースモデルの35.1%から80.5%へと大幅に向上しました。H100 GPU1枚でvLLMを使用した実験では、同時接続100の条件下で8.9kトークン/秒のスループットを記録し、前モデルHolo2-8Bの5.1kトークン/秒を大きく上回りました。

学習は2段階で実施されました。NVIDIAのNemotron-Nano-12B-v2-VLを起点に、H Company独自の画面理解・ナビゲーションデータで教師あり微調整を行い、約140億トークンで最終チェックポイントを構築しています。ライセンスはNVIDIA Open Model Licenseで公開されています。

今後の展開として、NVIDIAが同日発表したNemotron 3 Omniをベースとした次世代モデルの開発も予告されました。SSM-AttentionとMoEアーキテクチャを活用し、企業向けの大規模自律型コンピュータ操作への展開を目指すとしています。

出典：Hugging Face

a]16zが提言、AIでSAP等レガシー基幹システムを再生

2026年03月16日 Salesforce Slack 検索 AI活用ワークフロー ERP リスクスタートアップコンサルエージェント Andreessen Horowitz Computer Use

レガシーの壁とAI

SAP移行に7億ドル・3年の事例

業務知識がシステムに固定化

デジタル作業者の47%が情報検索に苦戦

大規模変革の70%が目標未達

AI活用の3領域

導入・移行の自動化と低リスク化

日常業務をAIコパイロットで効率化

薄型アプリでレガシーUIを刷新

意図駆動の操作レイヤーが新標準に

詳細を見る

a16z（Andreessen Horowitz）は、AIがSAP・ServiceNow・Salesforceなどの大規模レガシー基幹システムの活用方法を根本的に変えると提言しました。これらのシステムは企業の中核データと業務プロセスを握っており、置き換えは極めて困難ですが、AIによる「再生」が現実的な選択肢になりつつあります。

レガシーシステムの課題は深刻です。SAP ECCからS/4HANAへの移行には最大7億ドル・3年・50人規模のコンサルチームが必要とされ、独リドルは5億ドルを投じた移行を断念しました。デジタル作業者は1日平均1,200回もアプリを切り替え、週4時間を浪費しています。システム統合市場だけで2023年に約3,800億ドル規模に達しています。

AIの活用領域は大きく3つあります。第一に「導入・移行」では、要件定義やテスト自動化により工期とリスクを圧縮します。AxiamaticやTesseraなどのスタートアップが、ERP移行プロジェクトの失敗を早期検知し、コンサルタント依存を削減するツールを提供しています。

第二に「日常利用」では、AIコパイロットがSlackやブラウザから質問応答と安全な操作実行を担います。APIが存在しない業務には「コンピュータ使用型エージェント」がUI操作を自動化し、従来手作業だった残り30〜40%のワークフローもカバーします。Factor LabsやSolaが本番環境で実用化を進めています。

第三に「拡張」では、レガシーシステム上に薄型アプリを迅速に構築します。12のSAPトランザクションを1画面に集約するベンダーオンボーディングや、複数システムを横断するイベント駆動ワークフローが実現します。a16zは最終的に基幹システム自体は残りつつも、AIが「意図駆動型の操作レイヤー」となり、ユーザーは画面やコードではなく目的を伝えるだけで業務が完結する世界を描いています。

出典：a16z.com

OpenAIがGPT-5.4発表、PC操作や100万トークン対応

2026年03月05日 OpenAI ChatGPT Codex スライド GPT-5 専門家推論コーディング投資エージェントプロンプトコンテキストベンチマーク MCP Computer Use

モデル性能の飛躍

GDPvalで専門家超え83%達成

OSWorldでPC操作成功率75%

事実誤認が33%減少

推論トークン消費量の大幅削減

エージェント基盤の進化

コンピュータ操作のネイティブ対応

Tool Searchでトークン47%削減

APIで100万トークン文脈窓

Excel・Sheets連携プラグイン提供

詳細を見る

OpenAIは2026年3月5日、最新AIモデルGPT-5.4をChatGPT、API、Codexで公開しました。推論・コーディング・エージェント機能を統合した同社史上最高性能のフロンティアモデルと位置づけています。

GPT-5.4は同社初の汎用モデルとしてネイティブコンピュータ操作機能を搭載しています。Playwrightによるコード実行やスクリーンショットに基づくマウス・キーボード操作が可能で、OSWorldベンチマークでは人間の72.4%を上回る75.0%の成功率を達成しました。

ビジネス用途ではスプレッドシート、プレゼンテーション、文書作成の能力が大幅に向上しています。投資銀行業務のモデリングタスクでは平均87.3%のスコアを記録し、前モデルGPT-5.2の68.4%から約19ポイント改善されました。

API向けにはTool Search機能を新たに導入し、多数のツール定義を事前にプロンプトへ含める従来方式を刷新しました。MCP Atlasベンチマークでは同精度を維持しつつトークン使用量を47%削減する効果が確認されています。

価格は入力100万トークンあたり2.50ドル、出力15ドルに設定され、GPT-5.2より引き上げられました。一方で推論効率の向上により、タスク全体のコストは抑制される見込みです。APIでは最大100万トークンのコンテキストウィンドウに対応しています。

CopilotがPCを自律操作するタスク機能

2026年02月26日 OpenAI Anthropic マイクロソフト Copilot 検索エコシステムスケジュール調整エージェント Computer Use

Copilot Tasksの能力

AIがコンピューター操作を自律的に実行

スケジュール設定・メール・検索など日常業務を代行

Microsoftのコンピューターエージェント戦略の具現化

詳細を見る

Microsoftは新機能Copilot Tasksを発表しました。AIエージェントが実際にPCを操作し、ユーザーの指示に従って自律的にタスクを実行する機能です。The Vergeが詳細を報じました。

これはAnthropicのComputer UseやOpenAIのOperatorと同様の「コンピューター操作エージェント」カテゴリの製品であり、Microsoftのエコシステムでの展開により広いユーザー基盤への普及が期待されます。

出典：The Verge

AnthropicがVercept買収で自律化強化

2026年02月25日 Anthropic Meta Claude 創業者スタートアップ買収 Computer Use

買収の概要

Verceptの買収でClaude自律操作を強化

Metaが共同創業者を引き抜いた直後の取得

シアトルの有力スタートアップを獲得

技術的意義

Computer Use機能がさらに高度化

GUIの自律操作が精度向上

RPA・自動化市場での競争力強化

詳細を見る

AnthropicはVerceptを買収し、Claudeのコンピューター操作機能を強化すると発表しました。VerceptはGUI操作の自律化に特化したシアトル拠点のスタートアップであり、Metaが共同創業者を引き抜いた直後にAnthropicが買収を決断しました。

Claude Computer Useの機能は既に注目を集めていましたが、Verceptの技術統合によりGUIの自律操作精度がさらに向上することが期待されます。RPA（ロボティックプロセスオートメーション）市場への参入加速という戦略的意図も明らかです。

AI企業によるスタートアップ買収競争が激化する中、Computer Useという特定の技術領域での専門スタートアップ取得は、Anthropicの製品ロードマップにおける重要な一手となります。

出典：TechCrunch | Anthropic公式

Claude Sonnet 4.6登場、100万トークンコンテキストと全面強化

2026年02月16日 Google OpenAI Anthropic Gemini Claude デザイン GPT-4 Sonnet エンジニア推論コーディングエージェントプロンプトコンテキスト Computer Use

主要アップグレード

コーディング・コンピュータ使用で最高性能

100万トークンコンテキストがベータ提供

エージェント計画・長文脈推論を強化

デザイン・知的作業でも大幅向上

競争上の位置づけ

Sonnetシリーズ最高のフラッグシップに

GPT-4o・Gemini Proへの直接対抗馬

既存ユーザーへの無料アップグレード

APIで即日利用可能

詳細を見る

AnthropicはSonnetシリーズの最新作「Claude Sonnet 4.6」を発表しました。コーディング、コンピュータ使用（Computer Use）、長文脈推論、エージェント計画、知的作業、デザインの全領域でフルアップグレードが実施されています。

最も注目される機能は100万トークンのコンテキストウィンドウ（ベータ版）です。これにより大規模なコードベースや書籍全体、膨大なビジネス文書を単一のプロンプトで処理できるようになります。

コーディング能力の向上はエンジニアリングチームにとって即効性が高く、コンピュータ使用機能の強化はブラウザ・OS操作を伴う複合エージェントタスクの精度向上を意味します。

既存のSonnetシリーズ利用者はAPIおよびClaude.aiで即日アップグレードなしに本バージョンを利用できます。Anthropicは価格変更なしのアップグレードという価値提供戦略を継続しています。

Sonnet 4.6はOpenAIのGPT-4oやGoogleのGemini 1.5 Proと直接競合するポジションであり、フロンティアモデルの性能競争が一層激化しています。

出典：Anthropic公式

AnthropicがCoworkを発表、コーディング不要でClaudeがPC全体を操作

2026年01月12日 Google Anthropic マイクロソフト Claude Copilot Claude Code 生産性ワークフローエンジニアコーディングエージェント Computer Use

Coworkの機能と特徴

Claude Desktop上で動作するAIエージェント

ファイル・アプリ・ブラウザを横断操作

コーディングスキル不要でClaude Code相当

複数ステップのタスクを自律実行

一般ビジネスユーザー向け設計

競合との比較と意義

Claude Codeの非技術者版として位置付け

Operator・Computer Useの実用化

Microsoft CopilotやGoogle Workspaceと競合

企業の生産性変革を狙う

将来のエージェントAI普及の試金石

詳細を見る

AnthropicはCoworkを発表しました。これはClaude Desktopに統合されたAIエージェントで、プログラミング知識なしにファイル操作、ブラウジング、アプリ間ワークフローを自律的に実行できます。開発者向けに特化していたClaude Codeを一般ユーザー向けに再設計した製品と位置付けられています。

Coworkはドキュメント作成からデータ整理、ウェブリサーチまで複数ステップのタスクをエンドツーエンドで処理します。TechCrunch、The Verge、Ars Technica、VentureBeatなど複数メディアが一斉に報じており、エージェントAIの実用化フェーズへの移行を象徴するリリースとして注目を集めています。

MicrosoftのCopilotやGoogleのAI Inboxと直接競合するCoworkは、Anthropicが企業ユーザーと一般コンシューマー市場の両方を取りにいく戦略的製品です。コーディング不要という特性は特にIT部門以外の知識労働者の業務自動化において大きなインパクトをもたらす可能性があります。

出典：Ars Technica | VentureBeat | TechCrunch | The Verge

MetaのManus買収が示す企業AIエージェント戦略の転換点

2025年12月30日 OpenAI Anthropic Meta Manus エコシステム Llama リスクプライバシースタートアップ買収評価額エージェント Computer Use

買収の戦略的意味

Manusの汎用エージェント技術がMetaに統合

20億ドル超の評価額がエージェントAIの価値証明

LlamaスタックとManusの組み合わせで競争力向上

OpenAIのOperator・Agentsへの直接対抗手段

Meta AIプラットフォームの能力を大幅強化

企業向けエージェント市場への本格参入を意味

企業へのインプリケーション

エンタープライズAIエージェント戦略の再考が必要

ベンダーの統合が加速し選択肢が絞られる

オープンソースモデルとエージェント能力の組み合わせ

自社エージェント構築かMetaプラットフォーム活用か

データプライバシーとMetaへの依存リスクを検討

2026年はエージェント基盤の選択が最重要課題に

詳細を見る

MetaによるManus 買収は単なるスタートアップ獲得にとどまらず、エンタープライズAIエージェント戦略の根本的な転換を示しています。Manusが持つ汎用タスク実行能力とMetaのLlama エコシステムの融合は、強力な組み合わせです。

OpenAIのOperatorやAnthropicのComputer Useに対抗するため、MetaはManusの技術でエージェント能力を一気に引き上げる計画です。特にマルチステップタスクの自律実行において、Manusが示した能力は業界水準を大幅に超えていました。

企業の視点からは、Metaという強力なプラットフォームにエージェント能力が統合されることで、採用すべきエージェント基盤の選択が複雑になります。オープンソースのLlamaを使いながらMetaへの依存が深まるというジレンマに直面する企業も出てくるでしょう。

2026年のエンタープライズAI戦略において、エージェント基盤の選択は技術選定を超えた戦略的意思決定です。ベンダーロックインとオープン性のバランスをどう取るかが各企業の重要課題となります。

出典：VentureBeat

OpenAGIが新モデル「Lux」発表、競合超える性能と低コスト実現

2025年12月01日 OpenAI Anthropic Slack 創業者セキュリティ AGI スタートアップ MIT 提携エージェントベンチマーク Intel Computer Use

競合を凌駕する操作性能

Online-Mind2Webで成功率83.6%を達成

OpenAI等の主力モデルを20pt以上リード

行動と視覚情報に基づく独自学習

高効率・広範囲な実務適用

ブラウザ外のネイティブアプリも操作可能

競合比で10分の1の低コスト運用

Intelと提携しエッジデバイスへ最適化

詳細を見る

MIT出身の研究者が率いるOpenAGIがステルスモードを脱し、自律型AIエージェント「Lux」を発表しました。同社は、この新モデルがOpenAIやAnthropicといった業界大手のシステムと比較して、コンピュータ操作においてより高い性能を発揮しつつ、運用コストを大幅に削減できると主張しています。

Luxの最大の特徴は、実際のWeb環境でのタスク遂行能力を測る厳格なベンチマーク「Online-Mind2Web」での圧倒的なスコアです。競合のOpenAI製モデルが61.3%、Anthropic製が56.3%にとどまる中、Luxは83.6%という高い成功率を記録しました。これは、テキスト生成ではなく「行動」の生成に特化した設計の成果です。

同社独自の学習法「Agentic Active Pre-training」では、静的なテキストデータではなく、スクリーンショットと一連の操作手順を学習データとして用います。モデルは試行錯誤を通じて環境を探索し、その経験を新たな知識としてフィードバックすることで、自律的に性能を向上させる仕組みを持っています。

実用面での優位性も見逃せません。多くの競合エージェントがブラウザ操作に限定される中、LuxはExcelやSlackを含むデスクトップアプリ全般を制御可能です。さらに、Intelとの提携によりエッジデバイスでの動作も最適化されており、セキュリティを重視する企業ニーズにも対応します。

創業者のZengyi Qin氏は、過去にも低予算で高性能なモデルを開発した実績を持つ人物です。今回の発表は、膨大な資金力を持つ巨大企業に対し、革新的なアーキテクチャを持つスタートアップが対抗できる可能性を示唆しており、AIエージェント市場の競争を一層激化させるでしょう。

出典：VentureBeat

Gemini 2.5 CU公開、人間の操作を再現し業務自動化へ

2025年10月07日 Google Gemini 生産性エンジニアリスクセキュリティエージェントベンチマーク Computer Use Google DeepMind

新モデルの核心機能

UI操作に特化したGemini 2.5 Proベース

ウェブやアプリを人間のように操作

フォーム入力やログイン後の操作を実現

複雑なデジタルタスクの全自動化を可能に

技術的優位性

Gemini APIの「computer_use」ツール経由

競合モデルを上回る低遅延と高精度

スクリーンショットを元に次のアクションを決定

安全対策と提供

購入など高リスク操作は要確認

Google AI StudioとVertex AIで提供

詳細を見る

Google DeepMindは10月7日、ユーザーインターフェース（UI）を直接操作できるAIエージェント向けの新モデル「Gemini 2.5 Computer Use (CU)」を発表しました。これは、Gemini 2.5 Proの視覚理解能力を基盤とし、ウェブページやモバイルアプリでのクリック、タイピングといった人間と同じ操作をAIに実行させるものです。これにより、複雑なデジタルタスクの全自動化を可能にし、生産性の飛躍的向上を目指します。

従来のAIモデルは構造化されたAPI経由で連携していましたが、フォーム記入やログイン後の操作など、多くのデジタル業務にはグラフィカルUIへの直接的な操作が必要でした。Gemini 2.5 CUは、これらのボトルネックを解消し、汎用性の高いエージェント構築に向けた重要な一歩となります。

同モデルは、複数のウェブおよびモバイル制御ベンチマークで、既存の主要な競合モデルを上回る卓越した性能を示しています。特に、Online-Mind2Webなどのブラウザ制御評価では、最高精度を達成しながらも、業界最低水準の遅延を実現しており、実用性の高さが証明されています。

開発者は、Gemini APIの新しい「`computer_use`」ツールを通じてこの機能を利用可能です。エージェントは、ユーザー要求と環境のスクリーンショットを入力として受け取り、分析。モデルはクリックや入力などのUIアクションの関数コールを返し、タスクが完了するまでこのプロセスを反復します。

コンピューターを制御するAIエージェントには誤用や予期せぬ動作のリスクが伴うため、安全性は特に重視されています。モデルには、安全機能が直接組み込まれており、さらに開発者向けの多層的な安全制御機能が提供されます。セキュリティ侵害やCAPCHAs回避などの高リスクな行動は拒否またはユーザー確認を求められます。

Gemini 2.5 CUモデルは本日より、Google AI StudioおよびVertex AIを通じてパブリックプレビューとして利用可能です。Google内部では、既にUIテストの自動化や、Project Marinerなどのエージェント機能に本モデルのバージョンが活用されており、ソフトウェア開発における効率化への寄与が期待されています。

出典：Google公式

Computer Use（ユースケース）に関するニュース一覧

Computer Use（ユースケース）に関するニュース一覧

急成長の背景

製品と競合状況

MolmoWebの特徴

訓練データの規模

開発体制の転換

業界の潮流変化

今後の展望

Deeptuneの技術基盤

RL環境の産業的意義

性能と価格

主な用途

推論性能の飛躍

エージェント性能

レガシーの壁とAI

AI活用の3領域

モデル性能の飛躍

エージェント基盤の進化

Copilot Tasksの能力

買収の概要

技術的意義

主要アップグレード

競争上の位置づけ

Coworkの機能と特徴

競合との比較と意義

買収の戦略的意味

企業へのインプリケーション

競合を凌駕する操作性能

高効率・広範囲な実務適用

新モデルの核心機能

技術的優位性

安全対策と提供

関連キーワード

同じカテゴリ

他カテゴリ