Google Geminiがスマホ操作自動化を実現、実用化へ第一歩

自動化機能の実力

Uber Eats注文を自動操作
夕食注文に約9分を要す
バックグラウンドで自律動作
確認画面で人間が最終承認

将来性と課題

カレンダー連携で配車予約に成功
自然言語で曖昧な指示に対応
MCPやアプリ関数が本命技術
人間向けUIの操作に構造的限界
詳細を読む

Googleは、Pixel 10 ProおよびGalaxy S26 Ultraにおいて、Geminiがアプリを直接操作するタスク自動化機能のベータ版を公開しました。フードデリバリーや配車サービスなど限られたアプリに対応しています。

実際のテストでは、Uber Eatsでの夕食注文に約9分を要しました。Geminiはメニューの半量オプションを正しく認識して鶏肉を2つ追加するなど、推論能力を発揮しましたが、画面上の項目を見つけるのに時間がかかる場面もありました。

特に印象的だったのは、カレンダーに登録されたフライト情報を参照し、空港到着に適した時間を逆算してUberの予約を約3分で設定した事例です。「予約」という用語を使わず「乗車をスケジュール」と指示しても正しく処理できました。

この機能は注文や予約の最終確認の直前で停止し、ユーザーが内容を確認してから完了する設計です。テスト期間中に勝手に注文が完了することはなく、精度も高いため修正はほとんど不要でした。

ただし、人間向けに設計された現行アプリのUIをAIが操作する方式には構造的な限界があります。GoogleMCP(Model Context Protocol)Androidのアプリ関数など、AI向けの効率的な接続方式への移行を見据えており、現在の自動化は過渡期の技術と位置づけられています。