Skip to main content
QUICK REVIEW

[논문 리뷰] MOCA: A Modular Object-Centric Approach for Interactive Instruction Following

Kunal Pratap Singh, Suvaansh Bhambri|arXiv (Cornell University)|2020. 12. 06.
Multimodal Machine Learning Applications참고 문헌 29인용 수 23
한 줄 요약

MOCA는 시각-언어 탐색에서 상호작용 지시어를 따르는 데 있어 시각적 인식과 동작 정책을 분리하는 모듈러하고 객체 중심의 아키텍처를 제안한다. ALFRED 벤치마크에서 평가된 결과, MOCA는 모든 메트릭에서 뛰어난 성능을 기록하며, 예측되지 않은 환경으로의 일반화 능력도 뛰어나다.

ABSTRACT

Performing simple household tasks based on language directives is very natural to humans, yet it remains an open challenge for an AI agent. Recently, an 'interactive instruction following' task has been proposed to foster research in reasoning over long instruction sequences that requires object interactions in a simulated environment. It involves solving open problems in vision, language and navigation literature at each step. To address this multifaceted problem, we propose a modular architecture that decouples the task into visual perception and action policy, and name it as MOCA, a Modular Object-Centric Approach. We evaluate our method on the ALFRED benchmark and empirically validate that it outperforms prior arts by significant margins in all metrics with good generalization performance (high success rate in unseen environments). Our code is available at this https URL.

연구 동기 및 목표

  • 장기간이고 복잡한 언어 지시어를 요구하는 객체 상호작용이 필요한 시뮬레이션 환경에서 지시어를 따르는 도전 과제를 해결하기 위해.
  • 지시어 따르기 과정에서 예측되지 않은 환경으로의 AI 에이전트의 일반화 능력을 향상시키기 위해.
  • 시각적 인식과 동작 정책을 분리하여 시각-언어 탐색 작업에서 더 나은 모듈성과 성능를 확보하기 위해.
  • 상호작용 환경에서 시각, 언어, 탐색의 다중모odal 추론 분야의 연구를 발전시키기 위해.

제안 방법

  • MOCA는 시각적 인식과 동작 정책 학습을 분리하는 모듈러 아키텍처를 사용한다.
  • 지시어 따르기 동안 관련 엔티티에 집중하기 위해 객체 중심 표현을 사용한다.
  • 시각적 인식 모듈은 전용 백본 네트워크를 사용하여 환경 내 객체를 식별하고 추적한다.
  • 동작 정책 모듈은 인식된 객체와 언어 지시어를 바탕으로 동작를 계획하고 실행한다.
  • 결합된 시각-언어 입력은 교차 모달 어텐션 메커니즘을 통해 결정 부여를 안내한다.
  • 전체 파이프라인은 샘플 효율성과 일반화 능력을 향상시키기 위해 커리큘럼 학습을 통해 엔드 투 엔드로 훈련된다.

실험 결과

연구 질문

  • RQ1모듈러하고 객체 중심의 아키텍처가 상호작용 지시어 따르기 과제에서 성능 향상에 기여할 수 있는가?
  • RQ2기존 방법과 비교해 MOCA는 예측되지 않은 환경으로의 일반화 능력이 어떻게 되는가?
  • RQ3인식과 정책 학습을 분리함으로써 샘플 효율성과 내성적 안정성 향상에 어느 정도 기여하는가?
  • RQ4객체 중심 표현이 장기간 지시어 스트림에 대한 추론을 어떻게 향상시키는가?

주요 결과

  • MOCA는 ALFRED 벤치마크에서 모든 평가 메트릭에서 이전 최고 성능 기록을 초월한다.
  • 예측되지 않은 환경에서도 높은 성공률를 기록하여 강력한 일반화 능력을 입증한다.
  • 모듈러 설계 덕분에 다양한 지시어 시퀀스에서 더 나은 샘플 효율성과 안정적인 훈련이 가능하다.
  • 객체 중심 접근 방식은 관련 엔티티에 집중함으로써 장기간 지시어 스트림에 대한 추론 능력을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.