[논문 리뷰] A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity
본 논문은 23개 데이터셋(8개 작업)에 대해 ChatGPT를 평가하는 제로샷, 다중작업, 다국어, 다중모달 벤치마크 프레임워크를 제시하여 제로샷 다중작업의 강점과 자원부족 언어에서의 한계, 추론 신뢰성, 환각, 상호작용의 이점 등을 드러낸다.
This paper proposes a framework for quantitatively evaluating interactive LLMs such as ChatGPT using publicly available data sets. We carry out an extensive technical evaluation of ChatGPT using 23 data sets covering 8 different common NLP application tasks. We evaluate the multitask, multilingual and multi-modal aspects of ChatGPT based on these data sets and a newly designed multimodal dataset. We find that ChatGPT outperforms LLMs with zero-shot learning on most tasks and even outperforms fine-tuned models on some tasks. We find that it is better at understanding non-Latin script languages than generating them. It is able to generate multimodal content from textual prompts, via an intermediate code generation step. Moreover, we find that ChatGPT is 63.41% accurate on average in 10 different reasoning categories under logical reasoning, non-textual reasoning, and commonsense reasoning, hence making it an unreliable reasoner. It is, for example, better at deductive than inductive reasoning. ChatGPT suffers from hallucination problems like other LLMs and it generates more extrinsic hallucinations from its parametric memory as it does not have access to an external knowledge base. Finally, the interactive feature of ChatGPT enables human collaboration with the underlying LLM to improve its performance, i.e, 8% ROUGE-1 on summarization and 2% ChrF++ on machine translation, in a multi-turn "prompt engineering" fashion. We also release codebase for evaluation set extraction.
연구 동기 및 목표
- 다양한 NLP 태스크(요약, 번역, 감정 분석, QA, 대화, 허위정보) 및 다국어 설정에서 ChatGPT의 제로샷 성능을 평가한다.
- 비전과 언어를 연결하기 위한 중간 매체로 코드(code)를 사용하여 ChatGPT의 다중모달 역량을 평가한다.
- 다중 턴 프롬프트에서 ChatGPT의 추론, 사실성/환각, 인터랙티브성 효과를 정량화한다.
- 제안된 프레임워크 내에서 GPT-4를 조사하고 그 성능을 ChatGPT와 비교한다.
- 연구자를 위한 공개 재현 가능한 평가 프로토콜 및 데이터셋 접근성을 제공한다.
제안 방법
- 제로샷 설정 하에 8개 NLP 태스크를 다루는 23개의 공개 데이터셋에서 결과를 컴파일한다.
- 다국어성을 평가하기 위해 언어를 고자원/중자원/저자원/극저자원 범주로 분류한다.
- 시각-언어 상호작용을 시뮬레이션하기 위한 코드 기반 SVG 그림 그리기 태스크를 통해 다중모달 역량을 탐구한다.
- 선정된 QA 데이터셋을 사용해 10개 범주에 걸친 추론을 평가한다(연역적, 귀납적, 귀추적 추론, 시간적, 공간적, 수리적, 인과적, 일반상식).
- COVID 관련 데이터셋과 TruthfulQA 벤치마크를 사용하여 사실성 및 환각을 측정한다.
- 요약, 번역, 다중 모달 생성 태스크에서 다중 턴 프롬프트를 통한 인터랙티비티를 검토한다.
실험 결과
연구 질문
- RQ123개 데이터셋과 8개 태스크에서 제로샷 다중태스크 평가에서 ChatGPT의 성능은 어떠한가?
- RQ2다국어 이해와 생성에서의 강점과 약점은 무엇이며, 특히 저자원 언어에서의 성능은 어떻게 되는가?
- RQ3ChatGPT의 중간 코드 표현이 텍스트와 시각 간 다중모달 역량을 가능하게 할 수 있는가?
- RQ4다양한 추론 범주와 데이터셋에서 ChatGPT의 추론은 얼마나 신뢰할 수 있는가?
- RQ5인터랙티브 프롬핑(다중 턴)이 요약, 번역, 다중모달 태스크에서 ChatGPT의 성능을 어느 정도까지 향상시키는가?
주요 결과
- ChatGPT는 9/13 데이터셋에서 기존의 제로샷 모델을 능가하고 특정 작업에서 일부 미세 조정 모델을 능가할 수 있다.
- 극저자원 언어와 비라틴 문자 스크립트에서 성능이 저하되며, 특히 번역에서 두드러진다.
- ChatGPT는 귀납적, 다단계, 공간적, 수리적 추론에서 약점을 보이는 반면 일반상식 추론은 상대적으로 강하다.
- 환각은 지속되며, 작업 전반에서 외재적 부정확성이 드러난다; 사회적 주장에 대한 일부 검증 거부도 관찰된다.
- 인터랙티브하고 다중 턴 프롬프트는 측정 가능한 이득을 제공한다(예: 요약의 ROUGE-1 8%, MT의 ChrF++ 2%) 및 프롬프트 엔지니어링과 유사한 개선을 가능하게 한다.
- GPT-4는 일반적으로 많은 태스크에서 ChatGPT와 일치하거나 더 우수하며, 특히 귀납적, 수리적, 다단계, 시간적/공간적 추론에서 두드러진 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.