QUICK REVIEW

[論文レビュー] Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models

Shengzhi Li, Rongyu Lin|arXiv (Cornell University)|Feb 16, 2024

Speech and dialogue systems被引用数 15

ひとこと要約

本論文は、Direct Preference Optimization (DPO) を小規模で粒度の高いマルチモーダル好みデータセットと組み合わせて用いることで、視覚指示調整によって生じる言語指示の劣化を緩和し、いくつかのベンチマークでベースラインモデルを上回るだけでなく、視覚タスクの性能も向上させることを示している。

ABSTRACT

Multi-modal large language models (MLLMs) are expected to support multi-turn queries of interchanging image and text modalities in production. However, the current MLLMs trained with visual-question-answering (VQA) datasets could suffer from degradation, as VQA datasets lack the diversity and complexity of the original text instruction datasets with which the underlying language model was trained. To address this degradation, we first collect a lightweight, 5k-sample VQA preference dataset where answers were annotated by Gemini for five quality metrics in a granular fashion and investigate standard Supervised Fine-tuning, rejection sampling, Direct Preference Optimization (DPO) and SteerLM algorithms. Our findings indicate that with DPO, we can surpass the instruction-following capabilities of the language model, achieving a 6.73 score on MT-Bench, compared to Vicuna's 6.57 and LLaVA's 5.99. This enhancement in textual instruction-following capability correlates with boosted visual instruction performance (+4.9\% on MM-Vet, +6\% on LLaVA-Bench), with minimal alignment tax on visual knowledge benchmarks compared to the previous RLHF approach. In conclusion, we propose a distillation-based multi-modal alignment model with fine-grained annotations on a small dataset that restores and boosts MLLM's language capability after visual instruction tuning.

研究の動機と目的

視覚指示調整が MLLM における言語指示追従を劣化させる原因を特定する。
蒸留された人間らしい好みを用いたスケーラブルでデータ効率の良い整合性手法を開発する。
言語・視覚のベンチマークの双方で整合戦略（DPO、SteerLM、Rejection Sampling）を評価する。
多モーダルな好みの整合が、最小限の整合費用でテキストおよび視覚能力を向上させることを示す。

提案手法

Gemini による高品質注釈付きの 6k 件の VQA 好みデータセットを収集する。
整合戦略を比較する：Direct Preference Optimization (DPO)、SteerLM、Rejection Sampling、および標準 SFT。
モデル生成の完結から「好み」を（preferred, rejected）ペアとしてエンコードする。
選択した整合方法を用いて LLaVA-1.5-13b を LoRA でファインチューニングする。
DPO のハイパーパラメータ調整のために参照モデルの対数確率を事前計算する。
視覚指示、視覚マルチチョイス、言語指示のベンチマークで評価する。

実験結果

リサーチクエスチョン

RQ1視覚指示調整の後、蒸留ベースの好み整合はモダリティ間の衝突を緩和し、言語指示追従を改善できるか。
RQ2Direct Preference Optimization (DPO) は SteerLM、Rejection Sampling、標準 SFT よりも多モーダル整合において効果的かつデータ効率が高いか。
RQ3多モーダルな好みの整合は、テキストおよび視覚のベンチマークの両方にどのような影響を与えるか。
RQ4事前学習済み知識を保持する際、手法間で整合費用はどう異なるか。

主な発見

Model Name	Visual Instruction Benchmark	Visual Multi-Choice Benchmark	Text Instruction Benchmark	MM-Vet	LLaVA-bench	PoPe	MM-Bench
Vicuna-1.5-13b [16]	-	-	-	-	6.57	81.4
LLaVA-1.5-13b [10]	36.3	73.1	0.859	67.4	5.99	79.3
LLaVA-RLHF-13b [23]	37.2	76.8	0.869	60.1	6.18	81.0
Alignment method we benchmarked, finetuning LLaVA-1.5-13b	Standard SFT	36.5	63.7	0.850	65.4	5.01	50.2
SteerLM	35.2	67.0	0.878	65.1	5.70	68.8
Rejection-sampling	38.0	70.6	0.883	67.6	6.22	74.9
DPO	41.2	79.1	0.870	66.8	6.73	86.4

DPO は言語機能の統合を最も強く実現し、視覚指示調整後に MT-Bench（6.73）および AlpacaEval（86.4）で Vicuna を上回り、LLaVA-1.5-13b のベースラインは 5.99 MT-Bench、79.3 AlpacaEval。
DPO はオープンエンドの視覚指示性能を向上させ、MM-Vet で +4.9%、LLaVA-Bench で +6% をもたらす。
DPO はわずか 5k の小さな好みデータセットでデータ効率を示し、言語ベンチマークで RLHF 風アプローチを上回る。
視覚マルチチョイスのベンチマークでは、リジェクションサンプリングなどの手法が幻覚や知識タスクでより効果的な場合がある一方、DPO は言語整合を支配し、視覚性能は妥当な水準を保つ。
DPO は MM-Bench などの指標への整合費用が最小で、RLHF 系の手法と比較して広範な知識を保持する。
DPO データを拡大すると MT-Bench のスコアが 6.73 へと向上し、より大規模な模倣データベースよりも効率性の利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。