[論文レビュー] Calibrating Sequence likelihood Improves Conditional Language Generation
論文は SLiC を導入し、モデル生成系列をモデルの潜在空間の参照と整合させる第3の較正段階を提案する。これによりデコードヒューリスティクスを排除し、タスクとモデル規模を問わず品質を向上させる。
Conditional language models are predominantly trained with maximum likelihood estimation (MLE), giving probability mass to sparsely observed target sequences. While MLE trained models assign high probability to plausible sequences given the context, the model probabilities often do not accurately rank-order generated sequences by quality. This has been empirically observed in beam search decoding as output quality degrading with large beam sizes, and decoding strategies benefiting from heuristics such as length normalization and repetition-blocking. In this work, we introduce sequence likelihood calibration (SLiC) where the likelihood of model generated sequences are calibrated to better align with reference sequences in the model's latent space. With SLiC, decoding heuristics become unnecessary and decoding candidates' quality significantly improves regardless of the decoding method. Furthermore, SLiC shows no sign of diminishing returns with model scale, and presents alternative ways to improve quality with limited training and inference budgets. With SLiC, we exceed or match SOTA results on a wide range of generation tasks spanning abstractive summarization, question generation, abstractive question answering and data-to-text generation, even with modest-sized models.
研究の動機と目的
- MLE で訓練された条件付き言語モデルにおいて、系列確率が品質と一致しないという較正ギャップを動機づける。
- 潜在空間でデコード済み候補と参照を整合させる実用的な SLiC 訓練段階を提案する。
- SLiC が要約、QA、質問生成、データからテキストへのタスク全般で生成品質を向上させることを示す。
- モデル規模に依存せず較正の恩恵が持続し、デコードヒューリスティクスへの依存(ビームサイズ、長さ正規化、反復ブロックなど)を減らすまたは排除する。
提案手法
- 訓練データ上でファインチューニング済みモデルから m 個の候補系列をデコードする。
- デコーダー状態に基づく F 値を用いた類似度測度 s(ŷ, ȳ; x) を定義する較正目的 L^{cal} を用いて訓練する(文脈化された BERTScore の変種に類似)。
- ファインチューニング済み MLE 目的(クロスエントロピーまたは KL 発散)からの大きな偏差を防ぐ正則化項 L^{reg} を用いる。
- 較正データ上で L = sum_b L^{cal} + lambda L^{reg} を最適化する; θ はファインチューニング済みモデルから初期化。
- 複数の L^{cal} オプション(ランク、マージン、リスト順ランク、報酬)と2つの正則化(CE と KL)を検討する。
- 較正中にビーム探索( DBS や核サンプリングなどのアブレーション実験での他の戦略)を用いて候補をデコードする。
実験結果
リサーチクエスチョン
- RQ13 番目の較正段階は潜在空間でのモデルの系列尤度をターゲット品質と整合させ、デコードヒューリスティクスなしで生成を改善できるか。
- RQ2SLiC 符号化済みモデルは要約、生成的 QA、質問生成、データからテキストへのようなタスクで SOTA を上回るか、あるいは同等か。
- RQ3較正はモデル規模に across して有益で、ビームサイズ、長さ正規化、反復ブロックなどのデコードヒューリスティクスへの依存を減らすか。
主な発見
| Dataset | 従来のSOTA | Our fine-tuned (2B) | Our calibrated (2B) |
|---|---|---|---|
| CNN/DailyMail | 340M a | 47.78/23.55/44.57 | 47.97/24.18/44.88 |
| XSUM | 268B c | —/27.1/— | 49.77/27.09/42.08 |
| RedditTIFU-long | 340M f | 28.73/10.12/23.24 | 32.03/11.13/25.51 |
| SAMSum | 20B b | 53.64/29.21/44.83 | 54.37/29.88/45.89 |
- SLiC は一貫してモデル品質を向上させ、複数のタスク(要約、QA、QG、データからテキストへ)で SOTA を超えるか同等にする。
- 潜在空間の類似度ベースの較正損失は直接的な指標最適化より優れており、デコードヒューリスティクスを排除する。
- 較正の利得はモデルサイズが大きくなるにつれて持続し、同じ推論予算下で小さなモデルが大きな未較正モデルを上回ることがある。
- 推奨レシピはパープレキシティに基づくチェックポイント選択、候補デコードにビーム探索、L^{cal} のランク損失、L^{reg} の KL 発散を用いる。
- 較正済み PEGASUS-2B は 8 データセットで SOTA を達成し、しばしば prior SOTA よりもはるかに小さなモデルで達成(例: XSUM, WebNLG-en, CommonGen)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。