QUICK REVIEW

[논문 리뷰] PaLM-E: An Embodied Multimodal Language Model

Danny Driess, Fei Xia|arXiv (Cornell University)|2023. 03. 06.

Multimodal Machine Learning Applications인용 수 349

한 줄 요약

PaLM-E는 연속 관찰(이미지, 상태 추정 등)을 단일 디코더 전용 대형 언어 모델에 통합하여 구현된 구체화된 추론, 시각-언어 과제 및 전통적인 언어 과제를 수행하고 로봇공학 및 시각-언어 도메인 간의 전이(transfers)를 보여주며 작업 특화 미세조정 없이도 최첨단 OK-VQA 성능을 달성합니다.

ABSTRACT

Large language models excel at a wide range of complex tasks. However, enabling general inference in the real world, e.g., for robotics problems, raises the challenge of grounding. We propose embodied language models to directly incorporate real-world continuous sensor modalities into language models and thereby establish the link between words and percepts. Input to our embodied language model are multi-modal sentences that interleave visual, continuous state estimation, and textual input encodings. We train these encodings end-to-end, in conjunction with a pre-trained large language model, for multiple embodied tasks including sequential robotic manipulation planning, visual question answering, and captioning. Our evaluations show that PaLM-E, a single large embodied multimodal model, can address a variety of embodied reasoning tasks, from a variety of observation modalities, on multiple embodiments, and further, exhibits positive transfer: the model benefits from diverse joint training across internet-scale language, vision, and visual-language domains. Our largest model, PaLM-E-562B with 562B parameters, in addition to being trained on robotics tasks, is a visual-language generalist with state-of-the-art performance on OK-VQA, and retains generalist language capabilities with increasing scale.

연구 동기 및 목표

실세계의 연속 센서 모달리티에 언어 모델을 결합하여 구현된 추론을 가능하게 한다.
로봇 계획 수립, 시각 질문 응답(VQA), 캡션 생성을 모두 처리하는 단일 다중모달 모델을 만든다.
다양한 비전-언어 데이터에서 구현된 작업으로의 전이와 로봇 구현 간의 전이를 보여준다.
모델 확장과 다중 작업 학습이 데이터 효율성과 일반화 성능을 향상시킨다는 것을 보여준다.

제안 방법

연속 관측(이미지, 상태 추정)을 다중모달 토큰으로 사전학습된 디코더 전용 LLM에 주입하여 다중모달 문장을 형성한다.
각 모달리티에 대한 인코더를 LLM과 함께 엔드투엔드로 학습하여 계획이나 답변으로 해석될 수 있는 텍스트를 생성한다.
객체 중심 표현(OSRT, 실제 물체 마스크)을 사용하여 객체를 다중 임베딩으로 토큰화하고 텍스트에서 객체 참조를 가능하게 한다.
다양한 입력 표현(상태 벡터, ViT 변형, OSRT) 및 학습 방식(LLM 동결 vs 미세조정, 다중 작업 동학)을 평가한다.
PaLM-E 출력을 제어 루프의 저수준 정책과 연결하고 PaLM-E를 저수준 기술을 순차적으로 배치하는 고수준 계획자로 간주한다.

실험 결과

연구 질문

RQ1연속 센서 모달리티로 접지된 단일 다중모달 언어 모델이 구현된 추론과 표준 시각-언어 과제를 모두 수행할 수 있는가?
RQ2다중 작업, 교차 도메인 학습이 데이터 효율성을 향상시키고 로봇 구현 간 및 작업 간 전이를 가능하게 하는가?
RQ3다양한 모달리티 인코더(상태 벡터, ViT 변형, OSRT)가 구현된 계획 수립 및 VQA에서 성능에 어떤 영향을 미치는가?
RQ4LLM 동결 대 미세조정 및 객체 중심 표현이 일반화 및 데이터 효율성에 미치는 영향은 무엇인가?
RQ5PaLM-E를 대규모 매개변수 수로 확장하는 것이 일반적 능력을 유지하면서 구현된 계획 수립과 제로샷 다중모달 추론을 가능하게 할 수 있는가?

주요 결과

PaLM-E는 구현된 계획 수립, VQA, 캡션 생성에서 강력한 성능을 달성하고 제로샷 다중모달 사고 사슬 추론을 가능하게 한다.
로봇 공학 데이터와 일반 비전-언어 데이터의 혼합으로 공동 학습은 한정된 구현 데이터만 있을 때도 도메인 내 데이터만 사용하는 경우에 비해 성능을 향상시킨다.
OSRT 기반 3D 인식 객체 표현은 테스트한 인코더들 중 TAMP 환경에서 최상의 계획 성능을 제공한다.
562B 매개변수 PaLM-E 모델은 작업 특화 미세조정 없이도 최첨단 OK-VQA 결과를 달성하고 여러 작업 및 구현 간의 전이를 보인다.
LLM을 동결하고 인코더만 학습시키는 것은 일부 설정에서 가능하며 모달리티 기반 인코더를 통한 소프트 프롬프트 효과를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.