[논문 리뷰] The Battle of LLMs: A Comparative Study in Conversational QA Tasks
네 가지 데이터셋에 걸친 대화형 QA에서 ChatGPT, GPT-4, Gemini, Mixtral, Claude를 비교 평가하고, 정확도, 유창성, 일관성을 평가하기 위해 다중 지표와 두 모듈 생성 파이프라인을 사용했다.
Large language models have gained considerable interest for their impressive performance on various tasks. Within this domain, ChatGPT and GPT-4, developed by OpenAI, and the Gemini, developed by Google, have emerged as particularly popular among early adopters. Additionally, Mixtral by Mistral AI and Claude by Anthropic are newly released, further expanding the landscape of advanced language models. These models are viewed as disruptive technologies with applications spanning customer service, education, healthcare, and finance. More recently, Mistral has entered the scene, captivating users with its unique ability to generate creative content. Understanding the perspectives of these users is crucial, as they can offer valuable insights into the potential strengths, weaknesses, and overall success or failure of these technologies in various domains. This research delves into the responses generated by ChatGPT, GPT-4, Gemini, Mixtral and Claude across different Conversational QA corpora. Evaluation scores were meticulously computed and subsequently compared to ascertain the overall performance of these models. Our study pinpointed instances where these models provided inaccurate answers to questions, offering insights into potential areas where they might be susceptible to errors. In essence, this research provides a comprehensive comparison and evaluation of these state of-the-art language models, shedding light on their capabilities while also highlighting potential areas for improvement
연구 동기 및 목표
- 선도적인 LLM(ChatGPT, GPT-4, Gemini, Mixtral, Claude)의 대화형 QA 작업 성능을 평가한다.
- 대규모 응답을 생성하고 평가하기 위한 확장 가능한 파이프라인을 개발하고 검증한다.
- 표준 NLP 지표를 사용하여 품질을 정량화하고 정확도, 관련성, 일관성 등의 한계를 분석한다.
제안 방법
- 두 모듈 파이프라인: 광범위한 대화형 QA 커버리지를 위한 질문 생성(의역, 확장, QA 코퍼스로부터의 샘플링)과 응답 생성(LLMs).
- CoQA, DialFact, FaVIQ, CoDAH의 네 가지 대화형 QA 벤치마크를 사용한 평가.
- 정량 지표: BLEU, METEOR, BART, NIST, Jaccard, ROUGE-L, TER; 또 Chain-of-Thought, Zero-Shot, 및 3-Shot 설정.
- Rawte et al. (2023)에서 차용한 Hallucination Vulnerability Index (HVI)로 엔터티 조작 및 치환에 대한 모델 취약성을 평가한다.

실험 결과
연구 질문
- RQ1대화형 QA 작업에서 ChatGPT, GPT-4, Gemini, Mixtral, Claude가 정확성, 관련성, 일관성 측면에서 어떻게 비교되는가?
- RQ2샷 설정(Zero-shot 대 3-shot)과 Chain-of-Thought 추론이 모델 성능에 미치는 영향은 무엇인가?
- RQ3이 모델들은 동일 맥락 내에서 반복되는 질문에 대한 환각 처리와 일관성을 어떻게 다루는가?
- RQ4대화형 QA 말뭉치에서 평가될 때 이들 LLM에서 관찰되는 한계와 편향은 무엇인가?
주요 결과
- GPT-4와 Claude는 테스트된 시나리오 전반에서 정확성, 관련성, 일관성 면에서 ChatGPT-3, Gemini, Mixtral을 능가한다.
- GPT-4와 Claude는 Chain-of-Thought, Zero-Shot, 및 3-Shot 평가에서 더 높은 일관성과 맥락적 관련성을 보인다.
- 일부 평가에서 BLEU가 약 0.79, ROUGE-L이 약 0.53 수준의 전체 평균 지표가 보고되며 데이터셋에 따라 현저한 변동이 있다.
- 일부 모델(특히 ChatGPT-3, Gemini, Mixtral)은 동일 맥락에서 불일치와 때때로 오도하는 응답을 보였다.
- 본 연구는 환각 취약성을 정량화하기 위한 HVI를 도입하고 엔터티 조작 및 치환에 대한 모델별 경향을 보고한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.