[論文レビュー] On Learning to Summarize with Large Language Models as References
この論文は、要約の参照としての大規模言語モデル(LLM)の活用を検討し、LLMベースの評価信号と対比学習を用いて小型モデルを訓練し、人間評価との整合性を分析する。
Recent studies have found that summaries generated by large language models (LLMs) are favored by human annotators over the original reference summaries in commonly used summarization datasets. Therefore, we study an LLM-as-reference learning setting for smaller text summarization models to investigate whether their performance can be substantially improved. To this end, we use LLMs as both oracle summary generators for standard supervised fine-tuning and oracle summary evaluators for efficient contrastive learning that leverages the LLMs' supervision signals. We conduct comprehensive experiments with source news articles and find that (1) summarization models trained under the LLM-as-reference setting achieve significant performance improvement in both LLM and human evaluations; (2) contrastive learning outperforms standard supervised fine-tuning under both low and high resource settings. Our experimental results also enable a meta-analysis of LLMs' summary evaluation capacities under a challenging setting, showing that LLMs are not well-aligned with human evaluators. Particularly, our expert human evaluation reveals remaining nuanced performance gaps between LLMs and our fine-tuned models, which LLMs fail to capture. Thus, we call for further studies into both the potential and challenges of using LLMs in summarization model development.
研究の動機と目的
- abstractive summarization の学習設定としての LLM-as-reference の調査。
- LLM ベースの評価信号(GPTScore、GPTRank)が小型モデルの訓練をどのように導くかの評価。
- 対照学習を取り入れて LLM の指針を活用し、MLE ベースの基準と比較。
- 人間評価とメタ分析を実施し、LLM ベースの判断と人間の判断の整合性を評価。
提案手法
- モデル g(例:BART)は、LLMs 由来の準参照要約に対してMLEで訓練される。
- LLMs を用いて GPTScore または GPTRank による品質信号を訓練の指針として活用。
- BRIO風の対照学習を採用し、より高品質な要約を低品質な要約より押し上げる。
- クロスエントロピー損失と対照損失を組み合わせたマルチタスク目的関数(L_mul)を採用。
- 対照的なランキングのために多様なビーム探索で複数の候補要約を生成。
- 自動評価のためにLLM参照とLLMベース指標(GPTScore、GPTRank)に対するROUGEで評価。
- 人間のペアワイズ評価(顕在性、連結性、全体)とメタ分析用の専門家アノテーションを実施。
実験結果
リサーチクエスチョン
- RQ1LLM の指針を受けて訓練された小型モデルは、LLMベースの評価下でLLMと同等の性能を発揮できるか。
- RQ2GPTScore と GPTRank の信号は、標準的なMLEと比べて訓練にどのような影響を与えるか。
- RQ3LLMベースの評価での改善は人間の判断と整合するか。
- RQ4メタ分析から見える LLM-as-reference 設定の限界とリスクは何か。
主な発見
| LP | GS | R1 | R2 | Len. | |
|---|---|---|---|---|---|
| GPT3D3 | -22.62 | -0.271 | 100.0 | 100.0 | 85.4 |
| BART | -59.55 | -0.789 | 46.85 | 24.38 | 79.0 |
| GPT3D2 | -41.21 | -0.547 | 55.40 | 33.72 | 78.7 |
| Alpaca | -44.82 | -0.567 | 51.53 | 30.18 | 81.8 |
| ChatGPT | -45.12 | -0.498 | 58.14 | 37.46 | 92.0 |
| BART.ChatGPT | -41.08 | -0.446 | 54.26 | 33.98 | 93.7 |
| BART.GPT3D3 | -36.13 | -0.420 | 59.50 | 40.70 | 85.6 |
| BRIO.GPT3D3 | -26.20 | -0.318 | 56.21 | 36.47 | 83.7 |
- LLM ベースの評価下で、LLM ガイダンスと対照学習を用いて訓練した小型モデルが LLM レベルの性能に到達できる。
- BRIO.GPT3D3 は参照 LLM(GPT3D3)とほぼ同等の GPTScore を、約100件の対照例だけで達成。
- 対照学習は、LLM ガイダンスを用いた自動評価信号(GPTScore/GPTRank)の活用において、MLE 訓練よりしばしば上回る。
- GPTRank ベースの評価結果は参照 LLM(ChatGPT vs GPT-4)に依存することがあり、評価方法への感度を示唆している。
- 人間評価では、小型モデルは人間の判断でのLLMsをまだ上回っておらず、LLMベースと人間評価の整合性が欠けていることを示している。
- メタ分析は、LLMベースの評価が訓練に有用となり得る一方で、人間の嗜好と忠実に整合するには限界があることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。