[論文レビュー] Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models
STORM は、視点ガイド付きの質問と検索を用いて研究トピックを調べ、アウトラインを生成し、ゼロから Wikipedia 風の長文記事を作成するライティングシステム。アウトラインの網羅性を高め、アウトライン駆動のベースラインよりも記事をより整理された形で作成する。
We study how to apply large language models to write grounded and organized long-form articles from scratch, with comparable breadth and depth to Wikipedia pages. This underexplored problem poses new challenges at the pre-writing stage, including how to research the topic and prepare an outline prior to writing. We propose STORM, a writing system for the Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking. STORM models the pre-writing stage by (1) discovering diverse perspectives in researching the given topic, (2) simulating conversations where writers carrying different perspectives pose questions to a topic expert grounded on trusted Internet sources, (3) curating the collected information to create an outline. For evaluation, we curate FreshWiki, a dataset of recent high-quality Wikipedia articles, and formulate outline assessments to evaluate the pre-writing stage. We further gather feedback from experienced Wikipedia editors. Compared to articles generated by an outline-driven retrieval-augmented baseline, more of STORM's articles are deemed to be organized (by a 25% absolute increase) and broad in coverage (by 10%). The expert feedback also helps identify new challenges for generating grounded long articles, such as source bias transfer and over-association of unrelated facts.
研究の動機と目的
- Rigorous な事前執筆段階を通じて、根拠のある長文 Wikipedia 風の記事をゼロから生成する方法を調査する。
- トピックのアウトラインを多視点の検索と質問によって統合する STORM を開発する。
- 自動指標と専門家の人間評価の両方を用いて、STORM を検索ベースのベースラインと比較評価する。
- FreshWiki という新近の高品質 Wikipedia 記事のデータセットを作成・活用し、アウトラインと記事の品質を評価する。
提案手法
- 関連する Wikipedia 記事を分析し、目次を収集して多様な視点を発見する。
- 作家が信頼できるオンライン情報源に基づくトピック専門家へ質問を投げかける複数ターンの会話をシミュレーションする。
- 事前執筆段階で信頼できる情報源から情報を整理してアウトラインを形成する。
- アウトラインと取得した参照を用いて、意味情報検索を行い文脈ウィンドウ内に収まるようにセクションごとに記事の全体を生成する。
- 見出しのソフトリコールと見出しエンティティリコールの指標でアウトラインを評価する。
- ROUGE とエンティティリコールによる自動評価と、結束性・網羅性・検証可能性の専門家による人間評価を行う。
実験結果
リサーチクエスチョン
- RQ1多視点でトピックを調査し、包括的なアウトラインを作成するように大規模言語モデルをどのように誘導できるか。
- RQ2視点ガイド付きの質問は、ゼロから生成された Wikipedia 風の記事の網羅性・組織・根拠を改善するか。
- RQ3アウトライン品質と記事検証可能性の観点で、STORM と情報取得を強化したベースラインとのトレードオフは何か。
- RQ4FreshWiki データセットは、事前執筆と長文記事生成を評価する際にどれほど有効か。
主な発見
| Method | ROUGE-1 | ROUGE-L | Entity Recall | Interest Level | Organization | Relevance | Coverage |
|---|---|---|---|---|---|---|---|
| Direct Gen | 25.62 | 12.63 | 5.08 | 2.87 | 4.60 | 3.10 | 4.16 |
| RAG | 28.52 | 13.18 | 7.57 | 3.14 | 4.22 | 3.05 | 4.08 |
| oRAG | 44.26 | 16.51 | 12.57 | 3.90 | 4.79 | 4.09 | 4.70 |
| STORM | 45.82 | 16.70 | 14.10 | 3.99 | 4.82 | 4.45 | 4.88 |
| w/o Outline Stage | 26.77 | 12.77 | 7.39 | 3.33 | 4.87 | 3.35 | 4.37 |
- STORM はベースラインより高いアウトライン網羅性を示し、見出しソフトリコールと見出しエンティティリコールが顕著に向上する(STORM 92.73% soft recall、GPT-3.5/4 設定でそれぞれ 86.26% と 84.49%、エンティティリコールは STORM 45.91%、他の設定は 40.52% および 40.12%)。
- 自動記事品質では、STORM は ROUGE-1 45.82 および ROUGE-L 16.70 を達成し、oRAG(ROUGE-1 44.26、ROUGE-L 16.51)を上回る。
- STORM の長文記事は、最も強力なベースラインである oRAG と比較して、興味深さ、関連性、網羅性の評価者スコアが高い。
- STORM が生成した記事の引用は 84.83% が引用元で裏付けされ、85.18% が正確だが、バイアスの移転や関連性のない事実の過度な結びつきの可能性から検証可能性には依然として課題がある。
- アブレーション研究では、視点または会話コンポーネントを削除するとアウトライン品質が低下し、アウトライン段階を削除すると記事品質が顕著に低下する。
- 専門家評価では、STORM は経験豊富な編集者の事前執筆を支援し、最良ベースラインより組織的と評価された記事が 25% 増え、良好な網羅性と見なされる記事も 10% 増えた。しかし、中立性と検証可能性は依然として課題である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。