QUICK REVIEW

[論文レビュー] Generating Sequences by Learning to Self-Correct

Sean Welleck, Ximing Lu|arXiv (Cornell University)|Oct 31, 2022

Software Engineering Research被引用数 28

ひとこと要約

Self-Correctionは、シーケンス生成を基底のジェネレーターと、出力を反復的に改善する別個の正解器に分解し、基底モデルを更新せずに複数のタスクで改善を達成します。正解器は基底ジェネレーターより小さくなり得、明示的なフィードバックを活用することもできます。

ABSTRACT

Sequence generation applications require satisfying semantic constraints, such as ensuring that programs are correct, using certain keywords, or avoiding undesirable content. Language models, whether fine-tuned or prompted with few-shot demonstrations, frequently violate these constraints, and lack a mechanism to iteratively revise their outputs. Moreover, some powerful language models are of extreme scale or inaccessible, making it inefficient, if not infeasible, to update their parameters for task-specific adaptation. We present Self-Correction, an approach that decouples an imperfect base generator (an off-the-shelf language model or supervised sequence-to-sequence model) from a separate corrector that learns to iteratively correct imperfect generations. To train the corrector, we propose an online training procedure that can use either scalar or natural language feedback on intermediate imperfect generations. We show that Self-Correction improves upon the base generator in three diverse generation tasks - mathematical program synthesis, lexically-constrained generation, and toxicity control - even when the corrector is much smaller than the base generator.

研究の動機と目的

意味的制約を満たすために、シーケンス生成で反復的な洗練が必要であることを動機づける。
基底ジェネレーターと、反復的に適用できる別個の正解器という2モジュールのフレームワークを提案する。
スカラー値または自然言語のフィードバックを用いる正解器のオンライン訓練手順を開発する。
正解器のクロスタスク有効性と、他のジェネレーターや設定への転移可能性を実証する。

提案手法

p(y|x)をp0(y0|x)とpθ(y|y0,x)の積に分解して、複数の訂正ステップを持つ自己訂正器を形成する。
ジェネレーター出力と訂正のプールから価値を改善するペアを構築する自己訂正学習を通じて正解器を訓練する。
改善を導くスカラー値関数v(·)を使用し、訂正を導く任意のフィードバックf(·)を併用する。
改善と類似性のバランスを取るペアリングとサンプリング戦略で、価値を改善するペアを作成・サンプリングする。
ジェネレーターからy0をデコードして最終出力を推測し、次に正解器からy(t+1)を反復的にデコードする。）

実験結果

リサーチクエスチョン

RQ1オンラインで訓練された別の正解器は、多様なタスクにわたって基底ジェネレーターの品質を向上させることができるか？
RQ2より大きいまたは異なるジェネレーターへ置換した場合、訂正機構は転移可能か？
RQ3明示的な自然言語フィードバックは訂正品質をさらに向上させるか？
RQ4訓練ダイナミクス（ペアリング、近接性、探索）が正解器の有効性に与える影響は何か？

主な発見

Self-Correctionは数学的プログラム合成、語彙制約付き生成、毒性制御の分野で基底ジェネレーターを改善する。
基底ジェネレーターより小さい正解器でも実質的な改善を達成できる。
正解器はより大きなジェネレーターへ改善を転移し、テスト時にジェネレーターを入れ替えた場合でも適用できる。
明示的な自然言語フィードバックはさらに訂正を導き、タスク間で性能向上をもたらす。
複数の訂正と提案された訓練ダイナミクスがより強い改善に寄与し、探索が性能を後押しする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。