QUICK REVIEW

[論文レビュー] Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

Yuqing Wang, Yun Zhao|arXiv (Cornell University)|Dec 29, 2023

Natural Language Processing Techniques被引用数 14

ひとこと要約

本論文は Gemini Pro（および Gemini Pro Vision）を12の常識推論データセットで包括的に評価し、Gemini のGPT-3.5 TurboおよびGPT-4 Turboに対する競争力を示し、言語とマルチモーダル文脈における推論能力と一般的な失敗モードを分析している。

ABSTRACT

The burgeoning interest in Multimodal Large Language Models (MLLMs), such as OpenAI's GPT-4V(ision), has significantly impacted both academic and industrial realms. These models enhance Large Language Models (LLMs) with advanced visual understanding capabilities, facilitating their application in a variety of multimodal tasks. Recently, Google introduced Gemini, a cutting-edge MLLM designed specifically for multimodal integration. Despite its advancements, preliminary benchmarks indicate that Gemini lags behind GPT models in commonsense reasoning tasks. However, this assessment, based on a limited dataset (i.e., HellaSWAG), does not fully capture Gemini's authentic commonsense reasoning potential. To address this gap, our study undertakes a thorough evaluation of Gemini's performance in complex reasoning tasks that necessitate the integration of commonsense knowledge across modalities. We carry out a comprehensive analysis of 12 commonsense reasoning datasets, ranging from general to domain-specific tasks. This includes 11 datasets focused solely on language, as well as one that incorporates multimodal elements. Our experiments across four LLMs and two MLLMs demonstrate Gemini's competitive commonsense reasoning capabilities. Additionally, we identify common challenges faced by current LLMs and MLLMs in addressing commonsense problems, underscoring the need for further advancements in enhancing the commonsense reasoning abilities of these models.

研究の動機と目的

Gemini Pro の常識推論能力を、言語ベース11データセットとマルチモーダル1データセットの計12データセットにわたり評価する。
言語タスクにおいて、Gemini Pro を GPT 系モデル（GPT-3.5 Turbo、GPT-4 Turbo）および Llama-2-70b と比較する。
VCR系データセットを用いた Gemini Pro Vision と GPT-4V のマルチモーダル推論を評価する。
常識推論の強みと改善が必要な領域を特定するため、推論過程とエラータイプを分析する。

提案手法

一般・文脈・時間的・数値・物理・科学・社会・倫理・謎・視覚領域を含む12の常識データセットを評価する。
言語データには4つのLLMを使用（Llama-2-70b-chat、Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo）、マルチモーダルデータには2つのMLLMを使用（Gemini Pro Vision、GPT-4V）。
言語データセットごとに検証例を200件サンプリング；VCRについては50件をサンプリング。
言語データにはゼロショット標準 prompting（SP）とFew-shotの思考過程 prompting（CoT）を適用；マルチモーダルデータにはゼロショット promptingを適用。
各モデルのAPIを介してクエリを実行し、貪欲デコード（温度0）を使用；評価時には拒否応答や対象外の回答を不正解とみなす。

実験結果

リサーチクエスチョン

RQ1Gemini Pro（および Gemini Pro Vision）は、GPT-3.5 Turbo、GPT-4 Turbo、Llama-2-70bと比較して、広範な常識推論タスクでどのように性能を発揮するのか？
RQ2ゼロショット SP 対 Few-shot CoT の prompting 戦略は、言語ベースの常識推論性能にどのような影響を与えるのか？
RQ3マルチモーダル常識推論（Gemini Pro Vision 対 GPT-4V）は、VCR系タスクの異なる質問タイプでどのように比較されるのか？
RQ4言語とマルチモーダル設定で、LLM/MLLM が常識タスクを扱う際に最も一般的な推論エラーはどのようなものか、そしてそれらはどのように異なるのか？

主な発見

GPT-4 Turbo は、ほとんどの言語データセットで0ショットSPおよび5ショットCoTの設定の下で全般的にリードする。
Gemini Pro は言語タスクで GPT-3.5 Turbo に近く、平均すると GPT-4 Turbo より約8.2ポイント遅れる。
Gemini Pro Vision は VCR のマルチモーダルデータセットで、 temporal-type の質問を除き GPT-4V よりも劣る。
Gemini Pro の推論過程の約65.8% が論理的に妥当で文脈的にも適切と評価される。
時制・社会的常識推論は Gemini Pro にとって依然として難しく、Gemini Pro Vision における画像の感情認識にも顕著な難がある。
VCR のエラー分析では、感情認識と空間認識が GPT-4V および Gemini Pro Vision の両方で頻繁なエラータイプであり、論理的エラーも顕著で、視覚推論の改善余地を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。