[论文解读] An In-depth Look at Gemini's Language Abilities
本文提供对 Google Gemini Pro 与 OpenAI GPT 模型在 language 任务上的第三方、可复现比较,覆盖 10 个数据集,发现 Gemini Pro 在英语任务上接近 GPT-3.5 Turbo,但翻译能力更强;Mixtral 在某些任务上具有竞争力。
The recently released Google Gemini class of models are the first to comprehensively report results that rival the OpenAI GPT series across a wide variety of tasks. In this paper, we do an in-depth exploration of Gemini's language abilities, making two contributions. First, we provide a third-party, objective comparison of the abilities of the OpenAI GPT and Google Gemini models with reproducible code and fully transparent results. Second, we take a closer look at the results, identifying areas where one of the two model classes excels. We perform this analysis over 10 datasets testing a variety of language abilities, including reasoning, answering knowledge-based questions, solving math problems, translating between languages, generating code, and acting as instruction-following agents. From this analysis, we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked. We further provide explanations for some of this under-performance, including failures in mathematical reasoning with many digits, sensitivity to multiple-choice answer ordering, aggressive content filtering, and others. We also identify areas where Gemini demonstrates comparably high performance, including generation into non-English languages, and handling longer and more complex reasoning chains. Code and data for reproduction can be found at https://github.com/neulab/gemini-benchmark
研究动机与目标
- 提供 OpenAI GPT 模型与谷歌 Gemini 模型在语言任务上的客观、可复现比较。
- 识别 Gemini Pro 相对于 GPT-3.5 Turbo、GPT-4 Turbo 以及 Mixtral 在多样化基准中的优点与不足。
- 通过代码与数据实现结果透明,便于复现并分析不同任务的性能差异。
提出的方法
- 使用标准化提示和评估设置对四种模型(Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo、Mixtral)进行比较。
- 在覆盖知识型问答、推理、数学、翻译、代码生成和网页能力指令执行的 10 个数据集上进行评估。
- 使用一致的提示和评估程序,包括在适用情形下采用标准提示与推理过程(chain-of-thought)。
- 提供在线结果浏览器(Zeno)以及在提供的代码库中的开源复现实验代码。
实验结果
研究问题
- RQ1Gemini Pro 的语言理解与生成能力在多样化语言任务中与 GPT-3.5 Turbo 与 GPT-4 Turbo 相比如何?
- RQ2在何种任务中 Gemini Pro 相对于 GPT 模型和 Mixtral 表现出色或不足,能否解释这些差异?
- RQ3相比多语种基线与专门的机器翻译系统,Gemini Pro 在非英语翻译任务上的表现如何?
主要发现
| 模型 | 任务 | 数据集 | Gemini Pro | GPT 3.5 Turbo | GPT 4 Turbo | Mixtral |
|---|---|---|---|---|---|---|
| Gemini Pro | 基于知识的问答 | MMLU (5-shot) | 65.22 | 67.75 | 80.48 | 68.81 |
| Gemini Pro | 基于知识的问答 | MMLU (CoT) | 62.09 | 70.07 | 78.95 | 59.57 |
| Gemini Pro | 推理 | BIG-Bench-Hard | 67.53 | 71.02 | 83.90 | 60.76 |
| Gemini Pro | 数学 | GSM8K | 76.42 | 78.01 | 92.72 | 71.65 |
| Gemini Pro | 数学 | SVAMP | 81.10 | 82.30 | 92.60 | 81.60 |
| Gemini Pro | 数学 | ASDIV | 85.31 | 89.07 | 92.75 | 83.16 |
| Gemini Pro | 数学 | MAWPS | 96.50 | 98.00 | 98.67 | 96.00 |
| Gemini Pro | 代码生成 | HumanEval | 59.76 | 74.39 | 76.83 | 45.12 |
| Gemini Pro | 代码生成 | ODEX | 39.86 | 52.62 | 45.79 | 40.55 |
| Gemini Pro | 机器翻译 | FLORES (5-shot) Unblocked | 53.31 | 52.43 | 54.00 | 40.97 |
| Gemini Pro | 机器翻译 | FLORES (5-shot) All | 21.68 | 40.00 | 48.24 | 30.27 |
| Gemini Pro | 网页代理 | WebArena | 7.12 | 8.87 | 14.90 | 1.39 |
- Gemini Pro 在英语任务的准确性接近 GPT-3.5 Turbo,但在这些任务上通常不及 GPT-4 Turbo。
- Gemini Pro 在翻译成其他受支持语言方面相较于其 GPT 对手具有优势。
- Mixtral 在知识和数学任务上常与 Gemini 与 GPT 模型竞争,但在更复杂的任务上落后。
- 安全筛选可能显著降低某些任务的响应率和准确性,尤其是对敏感语言或主题。
- 较长的推理链和某些复杂任务下,Gemini Pro 的鲁棒性仍然存在,一些方面相对于 GPT-3.5 Turbo 在非常长的输出中具有优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。