QUICK REVIEW

[論文レビュー] MARG: Multi-Agent Review Generation for Scientific Papers

Mike D’Arcy, Tom Hope|ArXiv.org|Jan 8, 2024

Topic Modeling被引用数 8

ひとこと要約

MARG-S はマルチエージェント GPT-4 を用いて長い科学論文の実用的なピアレビューのフィードバックを生成します。テキストをエージェントと専門家プロンプトに分割することで、特異性を向上させ、各論文あたり 3.7 件の良いコメントを生み出します（ベースラインの 1.7 件と比較）。

ABSTRACT

We study the ability of LLMs to generate feedback for scientific papers and develop MARG, a feedback generation approach using multiple LLM instances that engage in internal discussion. By distributing paper text across agents, MARG can consume the full text of papers beyond the input length limitations of the base LLM, and by specializing agents and incorporating sub-tasks tailored to different comment types (experiments, clarity, impact) it improves the helpfulness and specificity of feedback. In a user study, baseline methods using GPT-4 were rated as producing generic or very generic comments more than half the time, and only 1.7 comments per paper were rated as good overall in the best baseline. Our system substantially improves the ability of GPT-4 to generate specific and helpful feedback, reducing the rate of generic comments from 60% to 29% and generating 3.7 good comments per paper (a 2.2x improvement).

研究の動機と目的

長く技術的な論文に対する自動で実用的なピアレビューのフィードバックの必要性を動機づける。
論文本文をエージェント間に分配することで LLM の入力長制限を克服するマルチエージェント・フレームワーク（MARG-S）を開発し、
論文本文をエージェント間で分散させてLLMの入力長制限を克服する。
エージェントを専門的役割（実験、明確さ、影響）に特化させ、フィードバックの質を向上させる。
自動指標とユーザ調査を用いてベースラインと比較してフィードバックの品質を評価する。
長文ドキュメントレビュー生成における将来の改善を導くために長所と短所を分析する。

提案手法

論文本文を作業エージェントに分散させ、単一のエージェントが入力制限を超えないようにする。
ワーカーと専門家の間の通信とタスク計画を調整する単一のリーダーエージェントを使用する。
サブタスク（実験、明確さ、影響）に特化した専門エージェントを導入してコメント生成を導く。
初期コメントを改善し無効なものを除外する洗練段階を組み込む。
ブロードキャストメッセージと構造化プロンプトを用いたエージェント間対話を管理する通信プロトコルを実装する。
長い論文を扱うために、メッセージ履歴の選択的な剪定を含む文脈管理戦略を適用する。

実験結果

リサーチクエスチョン

RQ1マルチエージェント prompting により、単一モデルの入力サイズを超える長さの論文に対するフィードバック生成が可能か？
RQ2専門エージェントを特化させると、単一エージェントアプローチと比較してフィードバックの品質と有用性が向上するか？
RQ3MARG-S は再現率、適合率、コメントの有用性においてベースラインとどのように比較されるか？
RQ4科学論文のマルチエージェントフィードバック生成の実用的な制限（コスト、通信エラー）は何か？

主な発見

方法	再現率	適合率	ジャカード係数	コメント数
SARG-B	7.43	1.40	1.25	19.7
SARG-TP	10.62	4.61	3.46	11.6
MARG-TP	8.49	5.34	3.52	8.5
LiZCa	9.67	9.96	5.58	4.0
MARG-S	15.84	4.41	3.53	19.8
no refinement	11.92	3.32	2.70	18.3
experiments-only	4.36	4.83	2.23	4.1
clarity-only	3.25	2.65	1.46	6.9
impact-only	8.88	4.75	3.32	8.8
Human	9.42	12.00	5.45	4.7

MARG-S は自動評価でベースラインより再現率が高い（15.84 対 9.67–10.62 の範囲）。
MARG-S は他の手法より論文あたりのコメント数が多い（平均 19.8）、ただし適合率とジャカード係数は変動する（それぞれ 4.41 と 3.53）。
MARG-S は一般的なコメントを大幅に削減（ユーザ調査で 60% から 29%へ）し、論文あたり 3.7 件の良いコメントを生み出す（単一エージェントのベースラインは 1.7）。
最も大きな自動再現率の改善は、ベストなベースライン LiZCa (Liang et al. 2023) に対して約 6.1 ポイントである。
MARG-S のコメントの特異性は高く、ユーザ調査で 71% のコメントが具体的と評価された。
MARG-S はコストの増大や内部通信エラーの可能性などの欠点を伴う。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。