Skip to main content
QUICK REVIEW

[論文レビュー] PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records

Yibo Lyu, Gongwei Chen|arXiv (Cornell University)|Jan 14, 2026
Personal Information Management and User Behavior被引用数 0
ひとこと要約

PersonalAlignとHIM-AgentおよびAndroidIntentベンチマークを導入し、長期記録を用いて GUIエージェントが暗黙のユーザー意図と整合させる。実行と proactively の性能を向上させる。

ABSTRACT

While GUI agents have shown strong performance under explicit and completion instructions, real-world deployment requires aligning with users' more complex implicit intents. In this work, we highlight Hierarchical Implicit Intent Alignment for Personalized GUI Agent (PersonalAlign), a new agent task that requires agents to leverage long-term user records as persistent context to resolve omitted preferences in vague instructions and anticipate latent routines by user state for proactive assistance. To facilitate this study, we introduce AndroidIntent, a benchmark designed to evaluate agents' ability in resolving vague instructions and providing proactive suggestions through reasoning over long-term user records. We annotated 775 user-specific preferences and 215 routines from 20k long-term records across different users for evaluation. Furthermore, we introduce Hierarchical Intent Memory Agent (HIM-Agent), which maintains a continuously updating personal memory and hierarchically organizes user preferences and routines for personalization. Finally, we evaluate a range of GUI agents on AndroidIntent, including GPT-5, Qwen3-VL, and UI-TARS, further results show that HIM-Agent significantly improves both execution and proactive performance by 15.7% and 7.3%.

研究の動機と目的

  • GUIエージェントが明示的な指示を超えてユーザーの暗黙の意図を推定する必要性を動機づける。
  • 好みと日課の整合を扱う階層的な暗黙の意図の見方を提案する。
  • 評価のために長期的なユーザーレコードを注釈付けするAndroidIntentを作成する。
  • パーソナライゼーションのために長期記憶を維持・組織するHIM-Agentを開発する。
  • AndroidIntentベンチマーク上でHIM-Agentの性能向上を示す。

提案手法

  • Reactive、Preference、Routine整合の3つのパラダイムでPersonalAlignタスクを定義する。
  • 注釈付けのための階層的フィルタリングを備えた長期的なユーザー中心GUIベンチマークAndroidIntentを構築する。
  • メモリを逐次更新するストリーミングアグリゲーションモジュールを備えたHIM-Agentを提案する。
  • 嗜好と日課の階層的メモリを形成するためのExecution-based Preference FilterとState-based Routine Filterを開発する。
  • 密集埋め込みと疎結合のジャカードを組み合わせ、メモリ更新時のアクション軌跡類似性にDTWを使用する。
  • 複数のGUIエージェント(GPT-5、Qwen3-VL、UI-TARS など)を横断して評価し、性能向上を示す。

実験結果

リサーチクエスチョン

  • RQ1指示が曖昧な場合、GUIエージェントは長期記録からユーザーの暗黙の嗜好をどのように推定し整合させることができるか。
  • RQ2階層的メモリ構造とストリーミング更新はGUIエージェントの嗜好と日課の意図をどう支えるか。
  • RQ3個別化された暗黙の意図の整合は、GUIタスクにおける反応的実行と先回りした支援のどの程度改善をもたらすか。

主な発見

  • HIM-Agentは基準手法より実行と proactive性能をそれぞれ15.7%と7.3%向上させた。
  • AndroidIntentは91人の20k長期記録から775の嗜好意図と215の日課意図の注釈付きグラウンドトゥルースを提供する。
  • ストリーミングアグリゲーションモジュールと階層的メモリ(嗜好 vs 日課)は安定したスケーラブルなパーソナライズを可能にする。
  • アブレーション研究はExecution-based Preference Filterの全成分が性能向上に寄与することを示し、全モジュールで顕著なCER改善を実現する。
  • 事前評価はオープンソース/クローズドソースのGUIエージェント間で、意図整合と誤検知のバランスが改善されることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。