[論文レビュー] BooookScore: A systematic exploration of book-length summarization in the era of LLMs
この論文はLLM生成の長編書籍要約の一貫性を研究し、長文の要約を比較するための自動指標 BooookScore を導入する。人間の細かな注釈と整合させて検証し、長文文書に対する prompting 戦略、ベースモデル、チャンク分割設定を比較する。
Summarizing book-length documents (>100K tokens) that exceed the context window size of large language models (LLMs) requires first breaking the input document into smaller chunks and then prompting an LLM to merge, update, and compress chunk-level summaries. Despite the complexity and importance of this task, it has yet to be meaningfully studied due to the challenges of evaluation: existing book-length summarization datasets (e.g., BookSum) are in the pretraining data of most public LLMs, and existing evaluation methods struggle to capture errors made by modern LLM summarizers. In this paper, we present the first study of the coherence of LLM-based book-length summarizers implemented via two prompting workflows: (1) hierarchically merging chunk-level summaries, and (2) incrementally updating a running summary. We obtain 1193 fine-grained human annotations on GPT-4 generated summaries of 100 recently-published books and identify eight common types of coherence errors made by LLMs. Because human evaluation is expensive and time-consuming, we develop an automatic metric, BooookScore, that measures the proportion of sentences in a summary that do not contain any of the identified error types. BooookScore has high agreement with human annotations and allows us to systematically evaluate the impact of many other critical parameters (e.g., chunk size, base LLM) while saving $15K USD and 500 hours in human evaluation costs. We find that closed-source LLMs such as GPT-4 and Claude 2 produce summaries with higher BooookScore than those generated by open-source models. While LLaMA 2 falls behind other models, Mixtral achieves performance on par with GPT-3.5-Turbo. Incremental updating yields lower BooookScore but higher level of detail than hierarchical merging, a trade-off sometimes preferred by annotators.
研究の動機と目的
- チャンク化と統合または逐次更新によって生成されたLLMベースの書籍長要約における一貫性の誤りを評価する
提案手法
- データ汚染を避けるために新しく刊行された本を用いて新しい人間の一貫性評価プロトコルを定義する
- 2つの prompting strategies(階層的統合と逐次更新)を用いたGPT-4生成要約に対して、100冊に跨る1193スパンレベルの人間注釈を収集する
- 少数ショットプロンプトを用いて8種類の一貫性エラーを検出する自動の文レベル一貫性指標 BooookScore を開発する
- 人間の注釈と BooookScore を照合して精度と信頼性を検証する(概ね 78-80% の精度)
- BooookScoreとコスト分析を用いて、さまざまなLLM、チャンクサイズ、prompting strategies を組織的に評価する
実験結果
リサーチクエスチョン
- RQ1チャンク化と統合または逐次更新を通じて長文の書籍要約を行う際、現代のLLMはどのような一貫性エラーを犯すか?
- RQ2金標本(ゴールド参照)なしで、自動指標 BooookScore はこれらの一貫性エラーを信頼性高く検出できるか?
- RQ3prompting strategy、ベースLLM、チャンクサイズは書籍長要約の一貫性と詳細度にどのように影響するか?
主な発見
- 書籍長の要約には、因果の省略や重要性欠如など、8種類の一貫性エラーが現れ、欠落エラーが最も頻繁である。
- 階層的統合は、逐次更新よりも一貫性が高いが詳しさは低い要約を生む。
- GPT-4とClaude 2は、テスト設定下でLLaMA 2やChatGPTよりも一貫性の高い要約を生成する。
- Claude 2 は大きいチャンクサイズで逐次更新の方が有利だが、階層的統合はそうではない。LLaMA 2 は全体的に性能が低い。
- BooookScore は人間の判断と密接に一致する(約 78.2% の精度 vs. 人間は 79.7%)で、コスト削減分析を可能にする(人間による評価で $15K 節約、500 時間)
- クローズドソースモデル(GPT-4、Claude 2)はコヒーレンスでオープンソースモデルを上回るが、長い出力はより詳細だがコストが高くなる可能性がある。
- 人間の好みは BooookScore と完全には相関せず、コヒーレンスと詳細度のトレードオフを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。