QUICK REVIEW

[論文レビュー] Differential Transformer

Tianzhu Ye, Li Dong|arXiv (Cornell University)|Oct 7, 2024

Physics and Engineering Research Articles被引用数 10

ひとこと要約

Differential Transformerはノイズを打ち消すために2つのソフトマックス注意マップを差し引く微分的注意機構を導入し、よりスパースで関連性の高い注意を生み出し、スケーリング、長文脈、検索、イン-context学習タスクでの性能を向上させる。

ABSTRACT

Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.

研究の動機と目的

トランスフォーマーにおける注意ノイズを低減する動機付けを行い、重要情報の検索と文脈理解を向上させる。
ノイズを抑制しつつ関連する文脈への焦点を促進する微分的注意機構を提案する。
ダウンストリームタスクとインコンテキスト学習シナリオにおけるスケーラビリティ、長文脈能力、頑健性を実証する。
幻覚の緩和と活性化の外れ値の低減など、実用的な利点を探る。

提案手法

入力射影を2つのグループに分割して、2つの独立したクエリとキーを計算する。
2つのソフトマックス注意マップを計算し、それらの差をとって微分注意を形成する。
2つの注意マップのバランスをとる学習可能なスカラーlambdaを導入し、安定な学習のためにlambdaを再パラメータ化する。
ヘッドごとの正規化と固定された勾配整合スケーリングを伴うマルチヘッド微分注意を適用し、続いてSwiGLUフィードフォワードブロックを適用する。
ヘッドと層全体での学習を安定化させるためにRMSNormとGroupNormを使用する。
標準のLLMハイパーパラメータと互換性を持たせるため、残差接続とLayerNorm風正規化を備えたデコーダー型アーキテクチャを維持する。

実験結果

リサーチクエスチョン

RQ1微分注意は標準的な注意と比較して、長い文脈から鍵情報を取得する能力を向上させるか？
RQ2Diff Transformerはパラメータやトークン数を減らしても、言語モデリングの性能を同等またはそれ以上達成できるか？
RQ3このアプローチは注意ノイズと活性化のアウトライヤーを減らし、量子化と長文脈処理をより良く可能にするか？
RQ4微分注意の下でインコンテキスト学習はプロンプト順序の置換に対してよりロバストか？
RQ5要約と質問応答における幻覚の緩和にも利点が及ぶか？

主な発見

モデル	ARC-C	ARC-E	BoolQ	HellaSwag	OBQA	PIQA	WinoGrande	Avg
Diff -3B	37.8	72.9	69.0	71.4	29.0	76.8	67.1	60.6
OpenLLaMA-3B-v2	33.9	67.6	65.7	70.0	26.0	76.7	62.9	57.5
StableLM-base-alpha-3B-v2	32.4	67.3	64.6	68.6	26.4	76.0	62.1	56.8
StableLM-3B-4E1T	—	66.6	—	—	—	76.8	63.2	—

Diff Transformerは、スケーリング、トークン数、文脈長においてTransformerを上回り、パラメータまたはトークン数の約65%程度で同等の性能を達成する。
長い文脈やneedle-in-a-haystackタスクでは、Diff TransformerはTransformerより精度が高く、注意ノイズが大幅に少ない。
Diff Transformerは要約・QAデータセットでTransformerと比較して文脈的幻覚を低減する。
Diff Transformerを用いた多ショットのイン・コンテキスト学習は、複数のデータセットにおいて示例順序に対してもTransformerより精度が高く、頑健である。
Diff Transformerは活性化のアウトライヤーが少なく、低ビット量子化下でも性能を維持し、ハードウェア実装の効率化を可能にする。
Diff Transformerは64K文脈でキー情報の安定した検索を維持し、ターゲット情報がシーケンスの前半にある場合に顕著な利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。