QUICK REVIEW

[논문 리뷰] Generalized Grounding Graphs: A Probabilistic Framework for Understanding Grounded Commands

Thomas Kollar, Stefanie Tellex|arXiv (Cornell University)|2017. 11. 29.

Multimodal Machine Learning Applications참고 문헌 75인용 수 23

한 줄 요약

이 논문은 자연어 명령어의 문법적 구조를 기반으로 동적으로 언어-세계 인터페이스를 구성하는 확률적 그래픽 모델인 일반화된 그라운딩 그래프(G3)를 소개한다. 구성적이고 계층적인 언어적 특징을 모델링함으로써 G3는 물리적 객체, 위치, 행동에 대해 명사구, 국소부사구, 동사를 견고하게 그라운딩할 수 있도록 하며, 포크리프트, 휠체어, 마이크로 항공기(MAV), PR2를 포함한 다양한 로봇 플랫폼에서 이동 및 조작 작업 전반에 걸쳐 성공을 보였다.

ABSTRACT

Many task domains require robots to interpret and act upon natural language commands which are given by people and which refer to the robot's physical surroundings. Such interpretation is known variously as the symbol grounding problem, grounded semantics and grounded language acquisition. This problem is challenging because people employ diverse vocabulary and grammar, and because robots have substantial uncertainty about the nature and contents of their surroundings, making it difficult to associate the constitutive language elements (principally noun phrases and spatial relations) of the command text to elements of those surroundings. Symbolic models capture linguistic structure but have not scaled successfully to handle the diverse language produced by untrained users. Existing statistical approaches can better handle diversity, but have not to date modeled complex linguistic structure, limiting achievable accuracy. Recent hybrid approaches have addressed limitations in scaling and complexity, but have not effectively associated linguistic and perceptual features. Our framework, called Generalized Grounding Graphs (G^3), addresses these issues by defining a probabilistic graphical model dynamically according to the linguistic parse structure of a natural language command. This approach scales effectively, handles linguistic diversity, and enables the system to associate parts of a command with the specific objects, places, and events in the external world to which they refer. We show that robots can learn word meanings and use those learned meanings to robustly follow natural language commands produced by untrained users. We demonstrate our approach for both mobility commands and mobile manipulation commands involving a variety of semi-autonomous robotic platforms, including a wheelchair, a micro-air vehicle, a forklift, and the Willow Garage PR2.

연구 동기 및 목표

복잡하고 불확실한 물리적 환경에서 자연어 명령어를 그라운딩하는 데 도전하는 것.
확장성과 학습 능력이 부족한 기호적 시스템과 구성성의 특성을 포착하지 못하는 평탄한 통계 모델의 한계를 극복하는 것.
학습되지 않은 사용자로부터 온 다양한 비정형 언어를 학습을 통해 그라운딩된 단어 의미를 이해함으로써 로봇이 해석할 수 있도록 하는 것.
언어 분석 구조에서 유도된 동적 확률적 그래픽 모델을 구성하여 구성적 추론을 지원하는 것.
여러 로봇 플랫폼에서 통합된 프레임워크를 통해 훈련 중에 보이지 않은 새로운 명령어에 일반화할 수 있도록 하는 것.

제안 방법

G3는 자연어 명령어의 문법적 분석에서 유도된 동적 확률적 그래픽 모델을 구성한다.
이 프레임워크는 명사구, 국소부사구 등 언어 구성요소를 랜덤 변수로 모델링하며, 물리적 실체인 물체, 위치, 경로, 행동 등에 그라운딩한다.
언어-물리적 그라운딩 쌍의 코퍼스를 기반으로 감독 학습을 수행하여, 언어적 특징을 지각적 상태 및 환경 상태에 매핑하는 확률적 술어를 학습한다.
그라운딩 추론은 동적으로 구성된 그래프 위에서 확률적 추론을 수행하여 명령어의 가장 가능성이 높은 해석을 도출한다.
언어의 구성적이고 계층적인 관계를 유지함으로써 복합 문장과 다중 목적어 동사를 포함한 추론이 가능하도록 구성적 추론을 지원한다.
불확실성 처리가 가능하며, 그라운딩 불확실성이 임계값을 초과할 경우 명확화 질문을 요청하는 활동 학습 기능으로 확장할 수 있다.

실험 결과

연구 질문

RQ1확률적 프레임워크가 자연어 명령어의 구성적 구조를 동적으로 모델링하여 물리적 환경에서 견고한 그라운딩을 가능하게 할 수 있는가?
RQ2이러한 프레임워크는 훈련 데이터에 존재하지 않은 새로운 명령어에 얼마나 잘 일반화되는가?
RQ3학습되지 않은 사용자로부터 온 언어적 다양성에도 불구하고 높은 정확도를 유지하면서 그라운딩을 수행할 수 있는가?
RQ4다양한 감지 및 동작 능력을 지닌 다양한 로봇 플랫폼에 얼마나 널리 적용될 수 있는가?
RQ5언어적 구조의 통합이 평탄한 모델 또는 기호적 모델에 비해 그라운딩 정확도를 얼마나 향상시키는가?

주요 결과

G3는 포크리프트, 휠체어, 마이크로 항공기(MAV), PR2 로봇을 포함한 네 가지의 서로 다른 로봇 플랫폼에서 자연어 명령어를 성공적으로 그라운딩했다.
계층적이고 구성적인 구조를 모델링함으로써 '타이어 팔레트를 트럭 위에 올려라'와 같은 복잡한 명령어를 견고하게 해석할 수 있도록 했다.
학습 데이터에 포함되지 않은 새로운 명령어에 대해 학습된 단어 의미를 확률적 추론을 통해 결합함으로써 일반화가 가능했다.
구성적 추론을 가능하게 하고 구성 요소 간의 관계를 포착함으로써 평탄한 통계 모델과 기호적 시스템보다 우수한 성능을 보였다.
엔트로피 기반 불확실성 탐지 기반 활동 학습 확장 기능을 통해 그라운딩이 모호할 경우 타겟된 명확화 질문을 요청할 수 있도록 했다.
도메인 특화 언어, 특히 명령형 명령어와 공간 관계어에 대해서도 확장성과 적응성을 입증했으며, 완벽한 세계 모델이 없더라도 성능을 유지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.