[논문 리뷰] An In-depth Look at Gemini's Language Abilities
그 논문은 Google Gemini Pro 대 OpenAI GPT 모델을 10개 데이터셋에서 언어 과제에 대해 제3자 재현 가능한 비교를 제공하며, 영어 과제에서 Gemini Pro가 거의 GPT-3.5 Turbo에 근접하지만 번역 능력이 더 강하고; Mixtral은 일부 과제에서 경쟁력 있음.
The recently released Google Gemini class of models are the first to comprehensively report results that rival the OpenAI GPT series across a wide variety of tasks. In this paper, we do an in-depth exploration of Gemini's language abilities, making two contributions. First, we provide a third-party, objective comparison of the abilities of the OpenAI GPT and Google Gemini models with reproducible code and fully transparent results. Second, we take a closer look at the results, identifying areas where one of the two model classes excels. We perform this analysis over 10 datasets testing a variety of language abilities, including reasoning, answering knowledge-based questions, solving math problems, translating between languages, generating code, and acting as instruction-following agents. From this analysis, we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked. We further provide explanations for some of this under-performance, including failures in mathematical reasoning with many digits, sensitivity to multiple-choice answer ordering, aggressive content filtering, and others. We also identify areas where Gemini demonstrates comparably high performance, including generation into non-English languages, and handling longer and more complex reasoning chains. Code and data for reproduction can be found at https://github.com/neulab/gemini-benchmark
연구 동기 및 목표
- OpenAI GPT 모델과 Google Gemini 모델의 언어 과제에 대한 객관적이고 재현 가능한 비교를 제공한다.
- Gemini Pro의 강점과 약점을 GPT-3.5 Turbo, GPT-4 Turbo, 및 Mixtral과 비교하여 다양한 벤치마크에서 식별한다.
- 재현을 위한 코드와 데이터로 결과를 투명하게 만들고, 과제별 성능 차이를 분석할 수 있도록 한다.
제안 방법
- 표준화된 프롬프트 및 평가 설정을 사용하여 네 가지 모델(Gemini Pro, GPT-3.5 Turbo, GPT-4 Turbo, Mixtral)을 비교한다.
- 지식 기반 QA, 추론, 수학, 번역, 코드 생성, 웹 기능 지시 수행 등 10개 데이터셋에서 평가한다.
- 표준 프롬pts 및 평가지침을 포함하여 일관된 프롬프트를 사용하고, 가능한 경우 체인-오브-사유(Chain-of-Thought) 프롬프트를 적용한다.
- 제공된 저장소에서 온라인 결과 브라우저(Zeno) 및 오픈 소스 재현 코드를 제공한다.
실험 결과
연구 질문
- RQ1Gemini Pro의 언어 이해 및 생성 성능이 다양한 언어 과제에서 GPT-3.5 Turbo 및 GPT-4 Turbo와 어떻게 비교되는가?
- RQ2Gemini Pro가 GPT 모델 및 Mixtral에 비해 어떤 과제에서 뛰어나고 약한지, 그리고 이러한 차이를 설명할 수 있는 요인은 무엇인가?
- RQ3비영어 번역 과제에서 Gemini Pro의 성능은 다국어 기반선 및 전용 MT 시스템에 비해 어떻게 나타나는가?
주요 결과
| 모델 | 작업 | 데이터셋 | Gemini Pro | GPT 3.5 Turbo | GPT 4 Turbo | Mixtral |
|---|---|---|---|---|---|---|
| Gemini Pro | Knowledge-based QA | MMLU (5-shot) | 65.22 | 67.75 | 80.48 | 68.81 |
| Gemini Pro | Knowledge-based QA | MMLU (CoT) | 62.09 | 70.07 | 78.95 | 59.57 |
| Gemini Pro | Reasoning | BIG-Bench-Hard | 67.53 | 71.02 | 83.90 | 60.76 |
| Gemini Pro | Mathematics | GSM8K | 76.42 | 78.01 | 92.72 | 71.65 |
| Gemini Pro | Mathematics | SVAMP | 81.10 | 82.30 | 92.60 | 81.60 |
| Gemini Pro | Mathematics | ASDIV | 85.31 | 89.07 | 92.75 | 83.16 |
| Gemini Pro | Mathematics | MAWPS | 96.50 | 98.00 | 98.67 | 96.00 |
| Gemini Pro | Code Generation | HumanEval | 59.76 | 74.39 | 76.83 | 45.12 |
| Gemini Pro | Code Generation | ODEX | 39.86 | 52.62 | 45.79 | 40.55 |
| Gemini Pro | Machine Translation | FLORES (5-shot) Unblocked | 53.31 | 52.43 | 54.00 | 40.97 |
| Gemini Pro | Machine Translation | FLORES (5-shot) All | 21.68 | 40.00 | 48.24 | 30.27 |
| Gemini Pro | Web Agents | WebArena | 7.12 | 8.87 | 14.90 | 1.39 |
- Gemini Pro는 영어 과제에서 GPT-3.5 Turbo에 근접한 정확도를 달성하지만, 일반적으로 이들 과제에서 GPT-4 Turbo보다 열등하다.
- Gemini Pro는 지원되는 다른 언어로의 번역에서 GPT 비교자에 비해 우수한 성능을 보인다.
- Mixtral은 지식 및 수학 과제에서 Gemini 및 GPT 모델과 경쟁하는 경우가 많지만 더 복잡한 과제에서는 뒤처진다.
- 안전 필터링은 특히 민감한 언어나 주제의 작업에서 응답률과 정확도를 크게 감소시킬 수 있다.
- 더 긴 추론 체인 및 일부 복잡한 과제에서 Gemini Pro가 강건성을 유지하며, 매우 긴 출력에서 GPT-3.5 Turbo에 비해 특정 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.