Skip to main content
QUICK REVIEW

[論文レビュー] Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Gemini Robotics Team, Petko Georgiev|arXiv (Cornell University)|Mar 8, 2024
Semantic Web and Ontologies被引用数 276
ひとこと要約

Gemini 1.5 は二つの長い文脈のマルチモーダルモデル(Gemini 1.5 Pro と Gemini 1.5 Flash)を導入し、それらは数百万トークンを参照・推論する能力を持つ。長文ドキュメントのリトリーバルをほぼ完璧に達成し、長文文書QA、長文動画QA、長文文脈ASRで最先端の性能を発揮する。

ABSTRACT

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra's state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5's long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professionals on completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

研究の動機と目的

  • 超長い文脈ウィンドウ(数百万トークン)でマルチモーダル理解を前進させる。
  • 品質を保ちつつ計算効率の高いバリアントを提供する(Gemini 1.5 Pro と Gemini 1.5 Flash)。
  • 長文-contextリトリーバル、長文ドキュメントQA、長文動画QA、長文-context ASRの改善を実証する。
  • 低リソース言語タスクを含む現実世界への実用的な影響と驚くべき能力を示す。

提案手法

  • 2 つのモデルを開発する:Gemini 1.5 Pro(2024 年 2 月版よりベンチマーク全体で改良)と Gemini 1.5 Flash(品質低下を最小限に抑えつつより効率的)。
  • モダリティ全体で10 百万トークンまでほぼ完璧なリトリーバル(>99%)を実証する。
  • Gemini 1.0 Ultra を含む従来モデルと比較して、長文ドキュメントQA、長文動画QA、長文-context ASR のベンチマークを評価する。
  • 文脈長さが拡張されるときの次のトークン予測性能を分析して長文-context の限界を評価する。
  • 時間節約とドメイン横断能力を示す現実世界のユースケースを提示する。

実験結果

リサーチクエスチョン

  • RQ1Gemini 1.5 はテキスト、ビデオ、オーディオを横断して数百万トークンを回憶し推論できるのか。
  • RQ2Gemini 1.5 Pro と Gemini 1.5 Flash の間で精度と効率のトレードオフはどうなるのか。
  • RQ3長文-context モデルは長文ドキュメントQA、長文動画QA、長文-context ASR で最先端の性能を達成するのか。
  • RQ4多様なタスク(低リソース言語を含む)における Gemini 1.5 の実世界での影響と制約は何か。

主な発見

  • Gemini 1.5 は最大10Mトークンに対してほぼ完璧なリトリーバル(>99%)を達成する。
  • Gemini 1.5 Pro は多くの機能とベンチマークで2月版を上回る。
  • Gemini 1.5 Flash は品質の大幅な低下を伴わずに効率性を提供する。
  • 長文ドキュメントQA、長文動画QA、長文-context ASR で新しい最先端の成果をモデルが達成する。
  • 実世界のシナリオでは、 Gemini 1.5 は10の職種カテゴリ全体で26–75% の時間節約を実現する。
  • モデルはカラム学習など、グラマー材から Kalamanɡ の翻訳を学習するなど、学習者と同等の内容を含む材料の理解能力を示すという驚くべき能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。