Skip to main content
QUICK REVIEW

[논문 리뷰] Multimodal Chain-of-Thought Reasoning in Language Models

Zhuosheng Zhang, Aston Zhang|arXiv (Cornell University)|2023. 02. 02.
Topic Modeling인용 수 96
한 줄 요약

이 논문은 Multimodal-CoT를 소개한다, 텍스트와 비전 입력에서 추론 근거를 생성하고 그 다중모달 근거를 사용해 답을 추론하는 두 단계 미세조정 프레임워크로, 1B 모델로 ScienceQA에서 최첨단을 달성했다.

ABSTRACT

Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer. However, existing CoT studies have primarily focused on the language modality. We propose Multimodal-CoT that incorporates language (text) and vision (images) modalities into a two-stage framework that separates rationale generation and answer inference. In this way, answer inference can leverage better generated rationales that are based on multimodal information. Experimental results on ScienceQA and A-OKVQA benchmark datasets show the effectiveness of our proposed approach. With Multimodal-CoT, our model under 1 billion parameters achieves state-of-the-art performance on the ScienceQA benchmark. Our analysis indicates that Multimodal-CoT offers the advantages of mitigating hallucination and enhancing convergence speed. Code is publicly available at https://github.com/amazon-science/mm-cot.

연구 동기 및 목표

  • 다중모달(텍스트+비전) 체인-오브- thought(CoT) 추론을 통해 답 추론을 개선하려는 동기 부여.
  • 1B-모델이 CoT에서 어려움을 겪는 이유와 비전이 추론의 함정을 완화하는 방법을 조사.
  • 근거 생성과 답 추론을 분리하는 두 단계 미세조정 프레임워크를 제안.
  • ScienceQA 벤치마크에서 접근법을 평가하고 언어 전용 및 더 큰 모델과 비교.

제안 방법

  • 두 단계에서 텍스트-텍스트 트랜스포머(T5 기반)를 미세조정: 근거 생성과 답 추론.
  • 비전 인코더(DETR)를 사용해 이미지 특징을 추출하고 게이트드 퓨전을 통해 언어 표현과 융합.
  • 첫 번째 단계에서 언어+비전 입력으로 근거 R을 생성; 두 번째 단계에서 원래 입력과 R에 조건화해 답을 추론.
  • ScienceQA의 주석된 근거와 답변에 대한 감독 학습으로 두 단계 훈련 체계 채택.
  • 언어-비전 간의 주의 기반 상호작용을 통해 비전 특징을 도입해 근거 품질과 정답 정확도 향상.
Figure 1: Example of the multimodal CoT task.
Figure 1: Example of the multimodal CoT task.

실험 결과

연구 질문

  • RQ1다중모달(텍스트+비전) CoT 추론이 다중모달 QA 벤치마크에서 언어 전용 CoT를 능가할 수 있는가?
  • RQ2다중모달 입력이 가능한 경우 1B-모델은 두 단계의 근거 생성과 답 추론 프레임워크로 이익을 얻는가?
  • RQ3비전 특징(DETR)과 캡션의 사용이 근거 품질과 최종 정답에 어떤 영향을 미치는가?
  • RQ4멀티모달 융합(주의 기반의 게이트 퓨전)이 텍스트 전용 베이스라인에 비해 추론 및 정확도에 어떤 영향을 미치는가?

주요 결과

모델크기NATSOCLANTXTIMGNOG1-6G7-12평균
Human-90.2384.9787.4789.6087.5088.1091.5982.4288.40
MCAN (2019)95M56.0846.2358.0959.4351.1755.4051.6559.7254.54
Top-Down (2018)70M59.5054.3361.8262.9054.8859.7957.2762.1659.02
BAN (2018)112M60.8846.5766.6462.6152.6065.5156.8363.9459.37
DFAF (2019)74M64.0348.8263.5565.8854.4964.1157.1267.1760.72
ViLT (2021)113M60.4863.8960.2763.2061.3857.0060.7261.9061.14
Patch-TRM (2021)90M65.1946.7965.5566.9655.2864.9558.0467.5061.42
VisualBERT (2019)111M59.3369.1861.1862.7162.1758.5462.9659.9261.87
UnifiedQA Base (2020)223M68.1669.1874.9163.7861.3877.8472.9865.0070.12
UnifiedQA Base + CoT223M71.0076.0478.9166.4266.5381.8177.0668.8274.11
GPT-3.5 (2020)175B74.6469.7476.0074.4467.2877.4276.8068.8973.97
GPT-3.5 + CoT175B75.4470.8778.0974.6867.4379.9378.2369.6875.17
Multimodal-CoT Base223M87.5277.1785.8287.8882.9086.8384.6585.3784.91
Multimodal-CoT Large738M95.9182.0090.8295.2688.8092.8992.4490.3191.68
  • 비전 특징을 이용한 Multimodal-CoT가 ScienceQA에서 GPT-3.5보다 16 포인트 높은 성능을 달성했다(대형 설정에서 91.68% 대 75.17%).
  • 두 단계의 Multimodal-CoT가 정답을 직접 예측하는 한 단계 베이스라인보다 더 높은 정확도를 달성했다.
  • 비전 특징(DETR)을 사용하는 것이 근거 품질(RougeL)과 최종 정답 정확도(84.91%)를 크게 향상시키고 망상으로 인한 오류를 감소시켰다.
  • 다른 비전 특징이 성능에 영향을 주며, DETR이 강한 이점을 제공하는 반면 CLIP과 ResNet은 이 설정에서 열등했다.
  • 이 접근법은 백본 모델(UnifiedQA Base/Large, FLAN-T5 Base/Large) 간에 일반화되며 1B에서 약 0.7B 파라미터 규모에서도 효과적이다.
  • 특성 제거(Ablation) 실험은 두 단계 설계나 비전 특징을 제거하면 성능이 떨어짐을 보인다(예: Two-Stage Framework 제거 시 평균 82.57로 감소; Vision Features 제거 시 평균 70.53으로 감소).
Figure 2: Example of the two-stage framework without vision features (baseline) and with vision features (ours) for generating rationales and predicting answers. The upper part presents the problem details with a gold rationale, and the lower part shows the outputs of the baseline and our method inc
Figure 2: Example of the two-stage framework without vision features (baseline) and with vision features (ours) for generating rationales and predicting answers. The upper part presents the problem details with a gold rationale, and the lower part shows the outputs of the baseline and our method inc

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.