QUICK REVIEW

[論文レビュー] An In-depth Look at Gemini's Language Abilities

Syeda Nahida Akter, Zichun Yu|arXiv (Cornell University)|Dec 18, 2023

Topic Modeling被引用数 11

ひとこと要約

本論文は、Google Gemini Pro と OpenAI の GPT 系モデルを、10 のデータセットにわたる言語タスクで第三者の再現可能な比較として提供し、英語タスクでは Gemini Pro が GPT-3.5 Turbo にほぼ近い一方、翻訳能力がより強力であること、Mixtral が一部タスクで競争力を持つことを示している。

ABSTRACT

The recently released Google Gemini class of models are the first to comprehensively report results that rival the OpenAI GPT series across a wide variety of tasks. In this paper, we do an in-depth exploration of Gemini's language abilities, making two contributions. First, we provide a third-party, objective comparison of the abilities of the OpenAI GPT and Google Gemini models with reproducible code and fully transparent results. Second, we take a closer look at the results, identifying areas where one of the two model classes excels. We perform this analysis over 10 datasets testing a variety of language abilities, including reasoning, answering knowledge-based questions, solving math problems, translating between languages, generating code, and acting as instruction-following agents. From this analysis, we find that Gemini Pro achieves accuracy that is close but slightly inferior to the corresponding GPT 3.5 Turbo on all tasks that we benchmarked. We further provide explanations for some of this under-performance, including failures in mathematical reasoning with many digits, sensitivity to multiple-choice answer ordering, aggressive content filtering, and others. We also identify areas where Gemini demonstrates comparably high performance, including generation into non-English languages, and handling longer and more complex reasoning chains. Code and data for reproduction can be found at https://github.com/neulab/gemini-benchmark

研究の動機と目的

言語タスクにおける OpenAI GPT モデルと Google Gemini モデルの客観的で再現性のある比較を提供する。
多様なベンチマークにおいて Gemini Pro の長所と短所を GPT-3.5 Turbo、GPT-4 Turbo、Mixtral と相対比較して特定する。
再現のためのコードとデータを用いて結果を透明化し、タスク特異的なパフォーマンス差の分析を可能にする。

提案手法

標準化された prompting と評価設定を用いて four モデル（Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo、Mixtral）を比較する。
知識ベースの QA、推論、数学、翻訳、コード生成、ウェブ対応指示遵守を網羅する 10 のデータセットで評価する。
適用可能な場合には標準的プロンプトと連鎖思考プロンプトの両方を含め、一貫したプロンプトと評価手順を用いる。
オンライン結果ブラウザ（Zeno）と提供リポジトリのオープンソース再現コードを提供する。

実験結果

リサーチクエスチョン

RQ1様々な言語タスクにおいて Gemini Pro の言語理解・生成性能は GPT-3.5 Turbo および GPT-4 Turbo と比べてどのようか。
RQ2Gemini Pro は GPT モデルおよび Mixtral と比較してどのタスクで優れているか、または劣るか、そしてこれらの差を説明できる要因は何か。
RQ3非英語翻訳タスクにおける Gemini Pro の性能は、多言語ベースラインおよび専用 MT システムと比較してどの程度か。

主な発見

モデル	タスク	データセット	Gemini Pro	GPT 3.5 Turbo	GPT 4 Turbo	Mixtral
Gemini Pro	Knowledge-based QA	MMLU (5-shot)	65.22	67.75	80.48	68.81
Gemini Pro	Knowledge-based QA	MMLU (CoT)	62.09	70.07	78.95	59.57
Gemini Pro	Reasoning	BIG-Bench-Hard	67.53	71.02	83.90	60.76
Gemini Pro	Mathematics	GSM8K	76.42	78.01	92.72	71.65
Gemini Pro	Mathematics	SVAMP	81.10	82.30	92.60	81.60
Gemini Pro	Mathematics	ASDIV	85.31	89.07	92.75	83.16
Gemini Pro	Mathematics	MAWPS	96.50	98.00	98.67	96.00
Gemini Pro	Code Generation	HumanEval	59.76	74.39	76.83	45.12
Gemini Pro	Code Generation	ODEX	39.86	52.62	45.79	40.55
Gemini Pro	Machine Translation	FLORES (5-shot) Unblocked	53.31	52.43	54.00	40.97
Gemini Pro	Machine Translation	FLORES (5-shot) All	21.68	40.00	48.24	30.27
Gemini Pro	Web Agents	WebArena	7.12	8.87	14.90	1.39

Gemini Pro は英語タスクで GPT-3.5 Turbo に近い精度を達成するが、これらのタスクでは通常 GPT-4 Turbo に及ばない。
Gemini Pro は他のサポート言語への翻訳で、GPT 比較モデルと比べて優れている。
Mixtral は知識・数学タスクで Gemini および GPT モデルと競合することが多いが、より複雑なタスクでは遅れをとる。
セーフティフィルタリングは、特にセンシティブな言語や話題において、いくつかのタスクで応答率と正確さを大幅に低下させる可能性がある。
長い推論チェーンやいくつかの複雑なタスクでは Gemini Pro が堅牢性を維持し、特に非常に長い出力において GPT-3.5 Turbo よりいくつかの利点がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。