QUICK REVIEW

[論文レビュー] Large Language Models can Learn Rules

Zhaocheng Zhu, Yuan Xue|arXiv (Cornell University)|Oct 10, 2023

Topic Modeling被引用数 8

ひとこと要約

HtT は訓練例から induction によってテキストルールのライブラリを学習し、それを演繹的に適用して LLM の推論を向上させ、関係推論、数値推論、概念学習タスクで絶対的な正解率を10–30%向上させる。

ABSTRACT

When prompted with a few examples and intermediate steps, large language models (LLMs) have demonstrated impressive performance in various reasoning tasks. However, prompting methods that rely on implicit knowledge in an LLM often generate incorrect answers when the implicit knowledge is wrong or inconsistent with the task. To tackle this problem, we present Hypotheses-to-Theories (HtT), a framework that learns a rule library for reasoning with LLMs. HtT contains two stages, an induction stage and a deduction stage. In the induction stage, an LLM is first asked to generate and verify rules over a set of training examples. Rules that appear and lead to correct answers sufficiently often are collected to form a rule library. In the deduction stage, the LLM is then prompted to employ the learned rule library to perform reasoning to answer test questions. Experiments on relational reasoning, numerical reasoning and concept learning problems show that HtT improves existing prompting methods, with an absolute gain of 10-30% in accuracy. The learned rules are also transferable to different models and to different forms of the same problem.

研究の動機と目的

明示的なルール知識を、暗黙の LLM 推論を補完する必要性を動機づける。
テキストルールライブラリを誘導・適用する Hypotheses-to-Theories (HtT) を提案する。
ルールベースの推論が関係推論、数値推論、概念学習タスクの正確性を改善することを示す。
学習したルールのモデル間・問題 variants 間の移転性を示す。
HtT の改善要因と成功条件を分析する。

提案手法

Induction ステージ: 各訓練例に対して LLM にルールを生成させ、正解データと整合性を検証してルールを確認する。
ルールをカバレッジと信頼度で選別してルールライブラリを構築（最小カバレッジ k および最小信頼度 p の閾値）。
Induction from Deduction: ルール生成と検証のための単一プロンプト設計を再利用して prompting 労力を軽減する。
Deduction ステージ: 学習済みルールライブラリを帰納的 prompting 手法（CoT や LtM など）の前に前置し、推論中にルールを取得・適用するよう LLM に促す。
ルールライブラリを階層的に整理し、XML タグ付けを用いて外部レトリーバーなしでルール検索を容易にする。
CLUTRR（関係推論）、算術（十進法以外の基数における数値推論）、List Functions（概念学習）を GPT-3.5 と GPT-4 で評価する。

実験結果

リサーチクエスチョン

RQ1訓練例から LLM が実用的なテキストルールライブラリを誘導できるか？
RQ2帰納を通じて学習したルールライブラリを組み込むと、ベースライン prompting より推論精度が改善されるか？
RQ3誘導されたルールはモデル間・問題バリアント間で転用可能か？
RQ4HtT の利得を生む要因（例：ルールカバレッジ/信頼度、例の数）は何か？
RQ5HtT は関係推論、数値推論、概念学習タスクでどのように機能するか？

主な発見

Model	Prompt	2 hops	3 hops	4 hops	5 hops	6 hops	7 hops	8 hops	9 hops	10 hops	Average
EdgeTransformer	0-shot CoT	100.0	94.4	96.8	88.0	68.8	61.9	50.0	50.0	36.0	71.8	0-shot CoT total avg: 71.8
EdgeTransformer	5-shot CoT	0.0	27.8	45.2	36.0	18.8	19.0	16.7	11.5	16.0	21.2	5-shot CoT total avg: 21.2
EdgeTransformer	+ HtT	87.5	38.9	35.5	44.0	37.5	14.3	33.3	11.5	36.0	37.6
GPT-3.5	+ HtT (GPT-4)	100.0	55.6	32.3	60.0	50.0	47.6	43.3	19.2	28.0	48.4
GPT-3.5	5-shot LtM	37.5	22.2	29.0	36.0	25.0	14.3	10.0	23.1	20.0	24.1
GPT-3.5	+ HtT	100.0	33.3	32.3	48.0	31.3	33.3	23.3	34.6	28.0	40.5
GPT-4	+ HtT (GPT-4)	75	44.4	41.9	52.0	37.5	33.3	23.3	19.2	16.0	38.1
GPT-4	5-shot LtM	62.5	38.9	58.1	68.0	50.0	38.1	43.3	34.6	28.0	46.8
GPT-4	+ HtT	100.0	55.6	77.4	80.0	75.0	38.1	36.7	38.5	20.0	57.9

HtT はタスクとモデル全体で、ベース prompting 手法に対して一貫して10–30ポイントの正解率向上をもたらす。
symbolic CLUTRR において、GPT-4 + HtT は 5-shot CoT に対して CoT を 27.2 ポイント改善し、CoT+HtT は平均 48.4% 対してベース CoT の 21.2%。
Arithmetic base-16/11/9 では、GPT-4 による HtT がベースプロンプトより最大 21.0 ポイント改善。
List Functions では、GPT-4 の HtT が平均タスク正解率を 56.2% に引き上げ、4-shot CoT の 46.0% に対し、GPT-3.5 は転移ルールから substantially benefiting (34.4% タスク正解率)。
アブレーション実験では、多くの利得は不正なルールを減らすことから来ており、ランダムなルールは性能を低下させることが示され、誘導されたルールの価値を裏付ける。
induction の例数が増えると正解率が対数線形にスケールすること、HtT は全データセットで必要なルールの 85% 以上を発見することが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。