QUICK REVIEW

[論文レビュー] Gemini: A Family of Highly Capable Multimodal Models

Gemini Robotics Team, Rohan Anil|arXiv (Cornell University)|Dec 19, 2023

Multimodal Machine Learning Applications被引用数 790

ひとこと要約

Gemini は画像、音声、動画、テキスト全域に渡って訓練されたマルチモーダルモデルのファミリー（Ultra、Pro、Nano）を導入し、数多くのベンチマークで最先端の結果を達成し、オンデバイスでの利用を可能にします。Gemini Ultra は MMLU で人間専門家と同等の性能を達成し、32 ベンチマーク中 30 をリードします。

ABSTRACT

This report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from complex reasoning tasks to on-device memory-constrained use-cases. Evaluation on a broad range of benchmarks shows that our most-capable Gemini Ultra model advances the state of the art in 30 of 32 of these benchmarks - notably being the first model to achieve human-expert performance on the well-studied exam benchmark MMLU, and improving the state of the art in every one of the 20 multimodal benchmarks we examined. We believe that the new capabilities of the Gemini family in cross-modal reasoning and language understanding will enable a wide variety of use cases. We discuss our approach toward post-training and deploying Gemini models responsibly to users through services including Gemini, Gemini Advanced, Google AI Studio, and Cloud Vertex AI.

研究の動機と目的

テキスト、画像、音声、動画に渡って訓練され、強力なクロスドメイン能力を備える単一のマルチモーダルモデルファミリーを開発する。
Ultra（高機能）、Pro（性能とデプロイ性のバランス）、Nano（オンデバイス）など、異なるデプロイニーズに応じたバリアントを有効化する。
品質、アライメント、安全性を向上させるためのポストトレーニングモデルを提供し、チャット重視と開発者重視のバリアントを提供する。
言語、コード作成、推論、マルチモーダルタスクを横断する広範な内部・外部ベンチマークで性能を評価する。
責任あるデプロイ、ポリシー、実世界の適用への示唆について論じる。

提案手法

32k のコンテキスト長と効率的なアテンション（例：マルチクエリアテンション）を用いたトランスフォーマーデコーダーベースのモデルを訓練する。
テキストおよび画像出力能力をネイティブに備えたテキスト、画像、音声、動画のマルチモーダルデータを共同訓練する。
Universal Speech Model からの 16 kHz 信号を介して音声を取り込み、微細な音声情報を捉える。
ポストトレーニングを用いてドメイン能力と安全性のアライメントを向上させる。
大規模 Gemini モデルから Nano モデルを蒸留してオンデバイス展開を実現する（1.8B および 3.25B バリアント）。
事前訓練および事後訓練済みモデルを広範な言語、コード作成、推論、マルチモーダルベンチマークで評価する。

実験結果

リサーチクエスチョン

RQ1単一の共同訓練マルチモーダルモデルファミリーが、テキスト、画像、音声、動画のベンチマークで最先端の性能を達成できるか。
RQ2精度、効率性、デプロイメントの点で Ultra、Pro、Nano バリアントのトレードオフは何か。
RQ3ポストトレーニングはマルチモーダルモデルの事実性、帰属、回避表現（ヘッジ）にどう影響するか。
RQ4マルチモーダルモデルはどの程度、クロスモーダル推論と長いコンテキスト能力を示すことができるか。
RQ5Gemini ファミリーの多言語およびオンデバイス機能は、言語とタスクを跨いでどの程度か。

主な発見

Gemini Ultra は 32 ベンチマーク中 30 で最先端の結果を達成し、MMLU で 90.04% の正確さで人間専門家の性能を上回る。
Gemini Ultra は MMMU で新たな最先端を設定（62.4%）、および 20 のマルチモーダルベンチマークで最先端を改善。
Gemini Nano モデル（1.8B および 3.25B）はオンデバイス性能が高く、特に事実性、推論、および多言語タスクで強力であり、より大きな Gemini モデルからの蒸留ベースである。
ポストトレーニングの緩和措置は事実性を改善（不正確さの割合が半減）、帰属 AIS スコアを最大 60.0%、ヘッジ精度を 69.3% に向上。
32k コンテキスト長を持つマルチモーダル長文コンテキストモデルは、リトリーブ型テストで全文脈にわたって正しく取得（98% の精度）。
Gemini は Gemini Pro を検索とツール使用と統合して競技プログラミング課題の AlphaCode 2 のような複雑なシステムを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。