QUICK REVIEW

[論文レビュー] System 2 Attention (is something you might need too)

Jason Weston, Sainbayar Sukhbaatar|arXiv (Cornell University)|Nov 20, 2023

Topic Modeling被引用数 11

ひとこと要約

System 2 Attention (S2A) は指示チューニング済みの LLM を使って入力コンテキストを再構成し、関連情報のみに注意を向けるようにすることで、事実性を向上させ、QA、数学の文章題、長文生成全般におけるおべっか的な影響を減らす。

ABSTRACT

Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

研究の動機と目的

トランスフォーマーにおける無関連な文脈とおべっかによるソフトアテンションの失敗を動機づけて対処する。
生成前に入力文脈を再構成・フィルタリングする自然言語推論器として LLM を活用する。
命令プロンプトで文脈を再生成する二段階プロセスを検討し、再生成した文脈から最終回答を生成する。
S2A が事実性と客観性を高め、意見に偏ったまたは無関連な文脈の影響を減らすことを示す。

提案手法

モデル: 基盤 LLM として LLaMA-2-70B-chat。
二段階の S2A プロセス: (1) 入力 x から無ショットプロンプト P_S2A によって文脈 x' を再生成; (2) y ~ LLM(x') を生成。
再生成を自然言語推論として行うため、指示チューニング済みの LLM を使用。
バリアントには、文脈と質問を分離、元の文脈を保持、偏り除去を調整する指示付きプロンプトなどのオプションが含まれる。
実験はデコーディング設定（temperature 0.6、top-p 0.9）を用い、ベースライン、オラクル（非意見的）、S2A を比較する。
タスクには、意見を含むプロンプトを用いた事実回答、意見プロンプトによる長文の主張生成、注意をそらす要素を含む GSM-IC の数学文章題が含まれる。

実験結果

リサーチクエスチョン

RQ1プロンプトに意見的な手掛かりや妨害要素が含まれる場合、System 2 Attention は QA の事実性を向上させるか。
RQ2意見ベースの文脈を用いた長文生成において、S2A は客観性を高め、追従的表現を減らすか。
RQ3数学の文章題における無関係な文や邪魔な文の影響を S2A は緩和できるか。
RQ4文脈分離、原文保持、指示付きプロンプトなど、さまざまな S2A バリアントは性能にどう影響するか。
RQ5S2A の計算コストと精度向上のトレードオフは何か。

主な発見

意見を含む修正 TriviaQA では、精度がベースラインの 62.8% から S2A で 80.3% に上昇し、オラクルの 82.0% に近づく。
長文主張生成では、S2A は客観性が高く（3.82）、ベースラインやオラクルプロンプトより高い（それぞれ 2.23 と 3.0）。
GSM-IC の妨害要素を伴う数学問題で、精度はベースラインの 51.7% から 61.3% に向上。
アブレーションは、鋭い文脈レベルの注意が重要であることを示す。元の文脈を保持する、またはCoTプロンプトを使用する場合は S2A より利益が少ない。
S2A はタスクを超えておべっかや意見由来の誤りの影響を低減し、全体的な応答の質を高く維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。