Skip to main content
QUICK REVIEW

[論文レビュー] Generalized Grounding Graphs: A Probabilistic Framework for Understanding Grounded Commands

Thomas Kollar, Stefanie Tellex|arXiv (Cornell University)|Nov 29, 2017
Multimodal Machine Learning Applications参考文献 75被引用数 23
ひとこと要約

本論文では、自然言語命令の文法構造に基づいて動的に言語-世界インターフェースを構築する確率的グラフィカルモデルである一般化グラウンディンググラフ(G3)を紹介する。G3は、構文的で階層的な言語的特徴をモデル化することで、物体、場所、行動などに名詞句、前置詞句、動詞を強固にグラウンディングするのを可能にする。移動および操作タスクの両方において、フォークリフト、車椅子、MAV、PR2を含む多様なロボットプラットフォームで成功を収めた。

ABSTRACT

Many task domains require robots to interpret and act upon natural language commands which are given by people and which refer to the robot's physical surroundings. Such interpretation is known variously as the symbol grounding problem, grounded semantics and grounded language acquisition. This problem is challenging because people employ diverse vocabulary and grammar, and because robots have substantial uncertainty about the nature and contents of their surroundings, making it difficult to associate the constitutive language elements (principally noun phrases and spatial relations) of the command text to elements of those surroundings. Symbolic models capture linguistic structure but have not scaled successfully to handle the diverse language produced by untrained users. Existing statistical approaches can better handle diversity, but have not to date modeled complex linguistic structure, limiting achievable accuracy. Recent hybrid approaches have addressed limitations in scaling and complexity, but have not effectively associated linguistic and perceptual features. Our framework, called Generalized Grounding Graphs (G^3), addresses these issues by defining a probabilistic graphical model dynamically according to the linguistic parse structure of a natural language command. This approach scales effectively, handles linguistic diversity, and enables the system to associate parts of a command with the specific objects, places, and events in the external world to which they refer. We show that robots can learn word meanings and use those learned meanings to robustly follow natural language commands produced by untrained users. We demonstrate our approach for both mobility commands and mobile manipulation commands involving a variety of semi-autonomous robotic platforms, including a wheelchair, a micro-air vehicle, a forklift, and the Willow Garage PR2.

研究の動機と目的

  • 複雑で不確実性を伴う物理的環境における自然言語命令のグラウンディングの課題に取り組むこと。
  • スケーラビリティや学習の欠如を抱えるシンボリックシステムの限界を克服し、言語の構成的性を捉えられない平坦な統計モデルの欠陊を避けること。
  • 未訓練のユーザーからの多様で非構造的な言語を学習して物理的意味をグラウンディングすることにより、ロボットが解釈できるようにすること。
  • 言語の解析構造から動的に確率的グラフィカルモデルを構築し、構成的推論を支援すること。
  • 複数のロボットプラットフォームにわたる統一フレームワークを通じて、学習時に見られなかった新しい命令への一般化を実証すること。

提案手法

  • G3は、自然言語命令の文法的解析から動的に生成される確率的グラフィカルモデルを構築する。
  • このフレームワークは、名詞句や前置詞句などの言語的構成要素を確率的変数としてモデル化し、物体、場所、経路、または行動などの物理的実体にグラウンディングする。
  • 言語-物理的グラウンディングペアのコーパスを用いた教師あり学習により、言語的特徴を知覚的状態や環境状態にマッピングする確率的述語を訓練する。
  • グラウンディング推論は、動的に構築されたグラフ上で確率的推論を実行し、命令の最も可能性の高い解釈を導出する。
  • 言語における引数構造と階層的関係を保持することで、ネストされた節や複数引数の動詞に対しても構成的推論を可能にする。
  • 不確実性の処理が可能であり、例えばグラウンディングの曖昧さがしきい値を超えた際に、明確化質問を提示するアクティブラーニングの拡張も可能である。

実験結果

リサーチクエスチョン

  • RQ1確率的フレームワークは、自然言語命令の構成的構造を動的にモデル化し、物理的環境における強固なグラウンディングを可能にするか?
  • RQ2このようなフレームワークは、学習データに存在しなかった新しい命令に対してどれほど一般化できるか?
  • RQ3未訓練のユーザーからの言語的多様性に対しても、グラウンディングの正確性を維持できるか?
  • RQ4異なるロボットプラットフォーム(知覚的および行動的能力が異なる)に、どの程度応用可能か?
  • RQ5言語的構造の統合は、平坦なモデルやシンボリックモデルに比べて、グラウンディングの正確性をどの程度向上させるか?

主な発見

  • G3は、フォークリフト、車椅子、マイクロ・エア・ビークル(MAV)、PR2ロボットの4つの異なるロボットプラットフォームにおいて、自然言語命令を成功裏にグラウンディングした。
  • 階層的かつ構成的な構造をモデル化することで、'タイヤのパレットをトラックに置け'のような複雑な命令の解釈を強固に可能にした。
  • 学習済みの語彙意味を確率的グラウンディンググラフ上の推論によって組み合わせることで、訓練データにない新しい命令への一般化が可能になった。
  • 引数構造を捉え、構成的推論を可能にするため、平坦な統計モデルやシンボリックシステムに比べて優れた性能を示した。
  • エントロピーに基づく不確実性検出を用いたアクティブラーニングの拡張により、グラウンディングが曖昧な場合に的を射た明確化質問を提示できるようになった。
  • ドメイン特化言語、特に命令形命令や空間的関係にまでスケーラビリティと適応性を示し、不完全な世界モデルでも有効であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。