QUICK REVIEW

[論文レビュー] RoboBrain: Large-Scale Knowledge Engine for Robots

Ashutosh Saxena, Ashesh Jain|arXiv (Cornell University)|Dec 1, 2014

Multimodal Machine Learning Applications参考文献 71被引用数 110

ひとこと要約

RoboBrainは、ロボット、ウェブ、研究プロジェクトなど多様なソースから、記号的、視覚的、言語的、触覚的知識を統合し、グラフ構造の知識ベースに統合する大規模かつマルチモーダルな知識エンジンである。ロボットがこのグラフから複数モodalの統合的推論を可能にすることで、自然言語の意味付与、認識、計画の分野で、単体のアルゴリズムと比較して明確な精度および耐障害性の向上が実証された。

ABSTRACT

In this paper we introduce a knowledge engine, which learns and shares knowledge representations, for robots to carry out a variety of tasks. Building such an engine brings with it the challenge of dealing with multiple data modalities including symbols, natural language, haptic senses, robot trajectories, visual features and many others. The extit{knowledge} stored in the engine comes from multiple sources including physical interactions that robots have while performing tasks (perception, planning and control), knowledge bases from the Internet and learned representations from several robotics research groups. We discuss various technical aspects and associated challenges such as modeling the correctness of knowledge, inferring latent information and formulating different robotic tasks as queries to the knowledge engine. We describe the system architecture and how it supports different mechanisms for users and robots to interact with the engine. Finally, we demonstrate its use in three important research areas: grounding natural language, perception, and planning, which are the key building blocks for many robotic tasks. This knowledge engine is a collaborative effort and we call it RoboBrain.

研究の動機と目的

ロボットがタスク実行のため、多様でマルチモーダルな知識ソース（例：言語、視覚、触覚、軌道）にアクセスし、それらを推論できるようにする課題に対処すること。
ロボット、ウェブ、研究プロジェクトからの知識を1つの相互接続されたグラフに統一するスケーラブルで協働的な知識インfraを構築すること。
共有の知識ベースを通じたマルチモーダルな統合的推論を可能にすることで、認識、言語理解、計画の分野におけるロボットのタスクパフォーマンスを向上させること。
研究者とロボットが、標準化されたクエリインターフェース（Robot Query Library）を通じて、最新の知識表現にシームレスにアクセスできるようにすること。
RoboBrainを通じた知識共有が、自然言語の意味付与および経路計画分野の既存アルゴリズムを向上させることを実証的に検証すること。

提案手法

ロボットのインタラクション、ウェブデータ（例：Wikipedia、WordNet）、研究プロジェクトなど多様なソースからの知識を、ノード（概念）と有向エッジ（関係）を持つ異種グラフ構造で表現する。
ノードをエンティティ（例：物体、動作、ポーズ）として、エッジを意味的、空間的、機能的、知覚的関係としてエンコードすることで、マルチモーダル知識を統一されたグラフでモデル化する。
ロボットと研究者が高レベルのクエリ（例：「ボトルの持ち方を検索」）を発行し、グラフから関連知識を取得できるようにするRobot Query Library（RQL）を実装する。
確率的推論を用いて最適な知識表現を選択する：入力コマンド、証拠、モデルの事前分布を考慮した下で、出力の尤度を最大化する表現を求める。式は $ \text{argmax}_{\text{representation}} P(\text{inferred}|\text{evidence}, \text{language}, w^*)P(\text{model}) $ である。
大規模かつ協働的な知識共有を想定したクラウドベースのアーキテクチャにより、分散的かつ同時的な更新と取得をサポートする。
複数のロボティクス研究プロジェクトおよび外部ソース（例：ImageNet、Kinectデータセット）からの知識統合により、グラフの豊かさと接続性を向上させる。

実験結果

リサーチクエスチョン

RQ1大規模な知識エンジンは、多様なソースからのマルチモーダル知識（記号、言語、視覚、触覚）を、統一的かつクエリ可能な構造に効果的に統合できるか？
RQ2RoboBrainにおける共有知識表現は、独立したアルゴリズムと比較して、自然言語の意味付与や経路計画などのロボットタスクのパフォーマンスをどの程度向上させるか？
RQ3RoboBrainのグラフの接続性は、独立した知識ソースと比較してどうなっており、ロボットタスクの一般化能力を向上させるか？
RQ4グラフベースの知識エンジンは、認識、言語、計画の分野で、リアルタイムかつ統合的推論をロボットシステムが行えるか？
RQ5協働的知識共有は、ロボット推論システムの精度と耐障害性にどのような影響を与えるか？

主な発見

RoboBrainのグラフには44,347ノードと98,465エッジがあり、プロジェクト間およびモーダル間で顕著な接続性を示しており、孤立した知識ソースと比較して平均ノード次数が0.8上昇している。
次数分布の分析から、RoboBrainは孤立ノード（次数1および2）の数を削減し、高次接続ノード（次数≥3）の数を増加させることに成功しており、概念間の相互接続性が向上していることが示された。
自然言語の意味付与において、RoboBrainの最適表現をクエリすることでパフォーマンスが向上した：IED（文字列編集距離）は、Algorithm Aの31.7およびAlgorithm Bの23.7から、RoboBrain A+Bの34.2に低下した。EED（意味的距離）は16.3および27.0から24.2（100基準化、値が高いほど良い）に向上した。
RoboBrainの知識共有により、経路計画および自然言語の意味付与アルゴリズムの性能が向上し、マルチモーダル知識を統合的に推論することで、推論の正確性が向上することを実証した。
ロボットが「台所からスイートティーを持ってきて」といった複雑なタスクを、物体の位置、把持方法、注ぎ方、空間的制約に関する知識を取得・統合することで実行可能となった。
Robot Query Library（RQL）により、研究者が最新の知識表現を簡単にアクセス・統合でき、再利用と協働の促進が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。