Skip to main content
QUICK REVIEW

[論文レビュー] From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Yudai Noda, Kanji Tanaka|arXiv (Cornell University)|Mar 9, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

この論文は、観測物体から意味的ゾーンを推定するLoRA調整済みLlama-2モデルを用いた地図ベースのAIフレームワークを提示し、プリンシパル探索のためのハイブリッドなトポロジー-グリッド地図を統合して、AI2-THORにおける frontier およびリアクティブなベースラインを上回る。

ABSTRACT

Object-Goal Navigation (ObjectNav) requires an agent to find and navigate to a target object category in unknown environments. While recent Large Language Model (LLM)-based agents exhibit zero-shot reasoning, they often rely on a "reactive" paradigm that lacks explicit spatial memory, leading to redundant exploration and myopic behaviors. To address these limitations, we propose a transition from reactive AI to "Map-Based AI" by integrating LLM-based semantic inference with a hybrid topological-grid mapping system. Our framework employs a fine-tuned Llama-2 model via Low-Rank Adaptation (LoRA) to infer semantic zone categories and target existence probabilities from verbalized object observations. In this study, a "zone" is defined as a functional area described by the set of observed objects, providing crucial semantic co-occurrence cues for finding the target. This semantic information is integrated into a topological graph, enabling the agent to prioritize high-probability areas and perform systematic exploration via Traveling Salesman Problem (TSP) optimization. Evaluations in the AI2-THOR simulator demonstrate that our approach significantly outperforms traditional frontier exploration and reactive LLM baselines, achieving a superior Success Rate (SR) and Success weighted by Path Length (SPL).

研究の動機と目的

  • Object-Goal Navigation (ObjectNav) を動機づけ、空間記憶を欠く反応的なLLMエージェントの限界に対処する。
  • 意味ゾーンを物体ベースの機能領域として定義し、ナビゲーションを導く。
  • 意味推論と幾何的計画を組み合わせるハイブリッドなトポロジー-グリッド地図を開発する。
  • A*とTSPベースの探索によるグローバル計画を可能にし、体系的なカバレッジを達成する。

提案手法

  • AI2-THORの物体-ゾーン共起データでLoRAを用いてLlama-2モデルをファインチューニングし、ゾーンカテゴリとターゲット存在を推定する。
  • 現在観測された物体集合を言語化してゾーン推定(Zone Z_est)とターゲット存在確率P_targetのプロンプトを形成する。
  • ローカル計画のためのメトリック占有グリッドと、ノードがゾーンとなる意味的トポロジカルグラフの二層地図を実装する。
  • SBERTを用いてターゲットと観測物体の意味的類似度を計算し、ゾーン関連性を導く。
  • 距離とP_targetを組み込んだ重み付きヒューリスティックで意味的フロンティアを優先する。
  • TSP(巡回セールスマン問題)を用いて高確率ゾーンを surveyed しながら経路長を最小化することで局所スキャン順序を解く。

実験結果

リサーチクエスチョン

  • RQ1LoRAでファインチューニングしたLLMは indoor 環境の物体観測から意味ゾーンを正確に推定できるか。
  • RQ2意味ゾーンとハイブリッド地図を統合することで ObjectNav の探索効率と成功率を改善できるか。
  • RQ3意味的priorsがフロンティア選択と経路計画に与える影響は、純粋に幾何学的なアプローチと比べてどうか。
  • RQ4ドメイン固有のファインチューニングがナビゲーション性能とアブレーション結果にどう影響するか。

主な発見

  • 提案手法は85%のSuccess Rate(SR)を達成。
  • 本手法は0.52のSPLを達成し、Frontierベースライン(0.31)およびReactive LLMベースラインを上回る。
  • LoRA-fine-tunedによるゾーン推定精度は92%に達する。
  • ゼロショット(非LoRA)モデルは、冗長なスキャンにより総走行距離が30%増加する。
  • マップなしの反応的LLMは近視的な挙動に陥り、フロンティアのみの方法は意味的ガイダンスを欠く。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。