QUICK REVIEW

[논문 리뷰] Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language

Andy Zeng, Attarian, Maria|arXiv (Cornell University)|2022. 04. 01.

Multimodal Machine Learning Applications인용 수 170

한 줄 요약

요약: 논문은 Socratic Models(SMs)이라는 모듈식 제로샷 프레임워크를 소개합니다. 이 프레임워크는 pretrained multimodal 모델을 언어 프롬프트로 구성하여 미세조정 없이 새로운 다중모달 태스크를 해결하고, 경쟁력 있는 제로샷 결과를 달성하며 새로운 응용을 가능하게 합니다.

ABSTRACT

Large pretrained (e.g., "foundation") models exhibit distinct capabilities depending on the domain of data they are trained on. While these domains are generic, they may only barely overlap. For example, visual-language models (VLMs) are trained on Internet-scale image captions, but large language models (LMs) are further trained on Internet-scale text with no images (e.g., spreadsheets, SAT questions, code). As a result, these models store different forms of commonsense knowledge across different domains. In this work, we show that this diversity is symbiotic, and can be leveraged through Socratic Models (SMs): a modular framework in which multiple pretrained models may be composed zero-shot i.e., via multimodal-informed prompting, to exchange information with each other and capture new multimodal capabilities, without requiring finetuning. With minimal engineering, SMs are not only competitive with state-of-the-art zero-shot image captioning and video-to-text retrieval, but also enable new applications such as (i) answering free-form questions about egocentric video, (ii) engaging in multimodal assistive dialogue with people (e.g., for cooking recipes) by interfacing with external APIs and databases (e.g., web search), and (iii) robot perception and planning.

연구 동기 및 목표

미세조정 없이 서로 다른 도메인(비전, 언어, 오디오)에서 훈련된 사전학습 모델 간의 보완적 지식을 활용한다.
언어가 서로 모델 간 커뮤니케이션의 보편적 매개체가 되어 다중모달 추론을 형성할 수 있음을 입증한다.
표준 벤치마크에서 경쟁력 있는 제로샷 성능을 보여주고, 자가시점 추론, 다중모달 대화, 로봇 계획 등의 새로운 응용을 가능하게 한다.
프롬프팅을 통해 이질적인 기초 모델을 구성할 때의 실용적 이점, 한계, 그리고 향후 연구 방향을 강조한다.

제안 방법

Socratic Models를 언어 프롬프트로 연결된 모듈들의 계산 그래프로 정의한다.
다중모달 프롬프트를 사용하여 비언어적 모달리티 정보를 언어 프롬프트에 대체하여 LM 기반 추론을 수행한다.
VLMs, LMs, and ALMs(APIs) 간의 경량 프롬프트 지향 대화를 활용하여 다운스트림 태스크에 대한 제로샷 추론을 수행한다.
같은 모델을 여러 차례 호출하여 출력을 다듬는 폐쇄 루프 상호작용을 시연한다.
LM이 추론할 수 있도록 비디오 콘텐츠를 언어로 요약하여 세계 상태 히스토리 개념을 적용한다.

실험 결과

연구 질문

RQ1이종 사전학습 모델(비전, 언어, 오디오, API) 간의 제로샷 프롬프트가 학습 없이 경쟁력 있는 다중모달 태스크 성능을 낼 수 있는가?
RQ2언어가 독립적 모델 간의 교차 모달 교환과 추론을 가능하게 하는 중간 표현으로 어떻게 작용할 수 있는가?
RQ3이미지 캡션 생성, 맥락적 캡션 생성, 비디오 검색, 그리고 egocentric 추론과 같은 프롬프트 주도 태스크에 대한 SM의 가능성과 한계는 무엇인가?
RQ4SM은 작업 특화 미세조정 없이 다중모달 보조 대화 및 로봇 인식/계획과 같은 새로운 응용을 가능하게 하는가?

주요 결과

SMs는 MS COCO 이미지 캡션 생성과 MSR-VTT 비디오-텍스트 검색에서 경쟁력 있는 제로샷 성능을 달성하며, 일부 제로샷-baselines 대비 눈에 띄는 이점을 보인다.
Concadia 맥락적 캡션 생성에서 SMs는 제로샷 캡션 생성 및 설명 작업에서 미세조정된 선행 방법을 능가한다.
장시간 자막이 포함된 비디오에 대해 MSR-VTT의 비디오-텍스트 검색에서 새로운 제로샷 최첨단을 달성했고, 특정 상황에서 미세조정 방법에 근접한다.
외부 API 및 동적 데이터 소스의 통합을 통해 자유로운 egocentric 인지, 다중모달 보조 대화, 로봇 인식/계획 등을 가능하게 한다.
프롬프트는 VLMs, LMs, ALMs의 보완적 강점을 활용하는 자체 포함형, 학습 없는 프레임워크를 가능하게 하지만, 사전학습 모델의 신뢰성에 의존하는 한계와 같은 제약도 인정한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.