[論文レビュー] GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation
本論文は MM-Navigator を紹介します。これは zero-shot スマートフォン GUI ナビゲーション用の GPT-4V ベースのエージェントであり、Set-of-Mark grounding とヒストリーのマルチモーダル自己要約を用いて、iOS と Android の性能を高く達成します。
We present MM-Navigator, a GPT-4V-based agent for the smartphone graphical user interface (GUI) navigation task. MM-Navigator can interact with a smartphone screen as human users, and determine subsequent actions to fulfill given instructions. Our findings demonstrate that large multimodal models (LMMs), specifically GPT-4V, excel in zero-shot GUI navigation through its advanced screen interpretation, action reasoning, and precise action localization capabilities. We first benchmark MM-Navigator on our collected iOS screen dataset. According to human assessments, the system exhibited a 91\% accuracy rate in generating reasonable action descriptions and a 75\% accuracy rate in executing the correct actions for single-step instructions on iOS. Additionally, we evaluate the model on a subset of an Android screen navigation dataset, where the model outperforms previous GUI navigators in a zero-shot fashion. Our benchmark and detailed analyses aim to lay a robust groundwork for future research into the GUI navigation task. The project page is at https://github.com/zzxslp/MM-Navigator.
研究の動機と目的
- GPT-4V ベースのエージェントがスマートフォン上でゼロショットの GUI ナビゲーションを実行できることを示す。
- iOS 画面上でのアクション計画と正確なアクションの局所化を評価する。
- Android ナビゲーションデータセットと比較して強力なベースラインを確立する。
- GUI タスクのロバストな grounding 手法を提案するために失敗モードを分析する。
提案手法
- 画面画像と指示を用いて GPT-4V にアクション計画を指示する。
- Set-of-Mark prompts を使用して OCR/IconNet が検出したバウンディングボックスを介して GPT-4V の出力を画面要素にアンカー付けする。
- UI 要素に数値タグを付与し、GPT-4V に対してアクション可能な出力を提供するためにタグ付きの画面を渡す。
- 各ステップで文脈を提供するためにマルチモーダル自己要約を用いてコンパクトな履歴を生成する。
- 実測ジェスチャーと照合するための画面単位の部分アクションマッチング指標を用いてアクションを評価する。

実験結果
リサーチクエスチョン
- RQ1GPT-4V は画面と指示から正しい意図したアクションの説明を生成できるか?
- RQ2GPT-4V は高レベルの意図をモバイル画面上の正確な局所化アクションに翻訳できるか?
- RQ3自己要約を通じたアクション履歴の組み込みはゼロショット GUI ナビゲーションを改善するか?
- RQ4GPT-4V は prior baseline と比較して Android UI ナビゲーションでどの程度の性能を示すか?
主な発見
| モデル | 訓練不要 | テキスト不要 | 総合 | 一般 | インストール | GoogleApps | 単一 | WebShopping |
|---|---|---|---|---|---|---|---|---|
| Fine-tuned Llama 2 | ✗ | ✗ | 28.40 | 28.56 | 35.18 | 30.99 | 27.35 | 19.92 |
| PaLM-2 ZS | ✓ | ✗ | 30.90 | - | - | - | - | - |
| PaLM-2 5-shot | ✓ | ✗ | 39.60 | - | - | - | - | - |
| ChatGPT 5-shot | ✓ | ✗ | 7.72 | 5.93 | 4.38 | 10.47 | 9.39 | 8.42 |
| GPT-4V ZS image-only | ✓ | ✓ | 50.54 | 41.66 | 42.64 | 49.82 | 72.83 | 45.73 |
| GPT-4V ZS +text | ✓ | ✗ | 51.92 | 42.44 | 49.18 | 48.26 | 76.34 | 43.35 |
| GPT-4V ZS +history | ✓ | ✗ | 52.96 | 43.01 | 46.14 | 49.18 | 78.29 | 48.18 |
- GPT-4V は iOS 画面に対する意図したアクションの説明で 90.9% の精度を達成。
- GPT-4V は iOS 画面に対する局所化アクション実行で 74.5% の精度を達成。
- Android AITW において、画像のみ、テキスト、および履歴入力を用いた GPT-4V は prior baseline より高い部分アクションマッチングスコアを達成。
- GPT-4V はゼロショットの Android 評価において従来の LLM ベース GUI ナビゲータを上回る。
- インコンテクスト履歴と解析済み画面テキストは画像のみのプロンプトよりナビゲーション性能を向上させる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。