QUICK REVIEW

[論文レビュー] Vision-and-Dialog Navigation

Jesse Thomason, Michael Murray|arXiv (Cornell University)|Jul 10, 2019

Multimodal Machine Learning Applications参考文献 38被引用数 118

ひとこと要約

協調ビジョンと対話によるナビゲーション（CVDN）を紹介する。フォトリアリスティック環境での2050の人間同士の対話データセットと、対話履歴からのナビゲーション（NDH）タスクをシーケンス・ツー・シーケンスのベースラインで評価。より長い対話履歴と混合的人間-プランナーの教師信号が、目標に向かうナビゲーションの進捗を改善することを示す。

ABSTRACT

Robots navigating in human environments should use language to ask for assistance and be able to understand human responses. To study this challenge, we introduce Cooperative Vision-and-Dialog Navigation, a dataset of over 2k embodied, human-human dialogs situated in simulated, photorealistic home environments. The Navigator asks questions to their partner, the Oracle, who has privileged access to the best next steps the Navigator should take according to a shortest path planner. To train agents that search an environment for a goal location, we define the Navigation from Dialog History task. An agent, given a target object and a dialog history between humans cooperating to find that object, must infer navigation actions towards the goal in unexplored environments. We establish an initial, multi-modal sequence-to-sequence model and demonstrate that looking farther back in the dialog history improves performance. Sourcecode and a live interface demo can be found at https://cvdn.dev/

研究の動機と目的

ロボット協働を向上させるため、人間環境での対話を活用したナビゲーションの研究動機付け。
ナビゲーションを導く双方向の自然言語対話の大規模なフォトリアリスティックデータセットを提供する。
対話履歴からナビゲーション行動を推定するNDHタスクを定義する。
対話文脈のナビゲーションにおける価値を評価するための、マルチモーダルなベースラインモデルを確立する。
性能を向上させるため、混合教師信号を含む学習信号を検討する。

提案手法

Matterport Room-2-Room環境での2050の人間同士の対話を含む、協調ビジョンと対話によるナビゲーション（CVDN）データセットを作成する。
NDHを定義する：入力は対象オブジェクトと対話履歴で、出力は目標領域に向かうナビゲーションアクション。
対話履歴上のLSTMエンコーダと、ResNet-152ベースの埋め込みからの視覚入力を用いたLSTMデコーダを備えたシーケンス・ツー・シーケンスモデルを用いる。
異なる対話履歴長と教師信号（Navigatorのみ、Oracleのみ、混合教師信号）を用いた実験。
距離-ゴール指標を用いて目標領域への進捗を評価し、最短経路やランダムエージェントなどのベースラインと比較。

実験結果

リサーチクエスチョン

RQ1より長い対話履歴はNDHタスクでのナビゲーション進捗を改善するか？
RQ2混合的人間とプランナーの教師信号での訓練がNDHの性能に与える影響は？
RQ3シーケンス・ツー・シーケンスモデルは、フォトリアリスティック環境で対話履歴をナビゲーションアクションに効果的にマッピングできるか？
RQ4見た環境と未見の環境の両方で、NDHの性能はベースラインとどう比較されるか？

主な発見

未見環境において、長い対話履歴は単一モダリティや限られた履歴入力に比べてナビゲーションの進捗を顕著に改善する。
混合教師信号（人間のデモとプランナーの指示を組み合わせる）は、オラクルのみまたはナビゲータのみの教師信号を使用する場合より一貫して優れている。
シーケンス・ツー・シーケンスベースラインはNDHに対するマルチモーダル能力を確立しており、未見環境では特に人間の性能に比べてまだ余地がある。
未見のテスト環境において、対話履歴全体を用いる方が、対象オブジェクトのみや直前のQA交換のみを用いるより優れている。
対話履歴は、対話コンテキストから適切なナビゲーションアクションへのマッピングを学習することを可能にし、将来のRLベースの改善を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。