QUICK REVIEW

[論文レビュー] Can large language models provide useful feedback on research papers? A large-scale empirical analysis

Weixin Liang, Yuhui Zhang|arXiv (Cornell University)|Oct 3, 2023

Topic Modeling被引用数 42

ひとこと要約

研究は論文の全PDFに対するフィードバックを生成するGPT-4ベースのパイプラインを開発し、Nature系ジャーナルとICLRで人間のレビューと比較評価し、前向きなユーザ研究で多くの研究者がフィードバックを有用と感じることを示した。

ABSTRACT

Expert feedback lays the foundation of rigorous research. However, the rapid growth of scholarly production and intricate knowledge specialization challenge the conventional scientific feedback mechanisms. High-quality peer reviews are increasingly difficult to obtain. Researchers who are more junior or from under-resourced settings have especially hard times getting timely feedback. With the breakthrough of large language models (LLM) such as GPT-4, there is growing interest in using LLMs to generate scientific feedback on research manuscripts. However, the utility of LLM-generated feedback has not been systematically studied. To address this gap, we created an automated pipeline using GPT-4 to provide comments on the full PDFs of scientific papers. We evaluated the quality of GPT-4's feedback through two large-scale studies. We first quantitatively compared GPT-4's generated feedback with human peer reviewer feedback in 15 Nature family journals (3,096 papers in total) and the ICLR machine learning conference (1,709 papers). The overlap in the points raised by GPT-4 and by human reviewers (average overlap 30.85% for Nature journals, 39.23% for ICLR) is comparable to the overlap between two human reviewers (average overlap 28.58% for Nature journals, 35.25% for ICLR). The overlap between GPT-4 and human reviewers is larger for the weaker papers. We then conducted a prospective user study with 308 researchers from 110 US institutions in the field of AI and computational biology to understand how researchers perceive feedback generated by our GPT-4 system on their own papers. Overall, more than half (57.4%) of the users found GPT-4 generated feedback helpful/very helpful and 82.4% found it more beneficial than feedback from at least some human reviewers. While our findings show that LLM-generated feedback can help researchers, we also identify several limitations.

研究の動機と目的

従来の査読とフィードバックにおけるスケーラビリティとアクセスの障壁に対処する。
論文全体PDFから構造化された科学的フィードバックを生成する自動化されたGPT-4ベースパイプラインを開発する。
Natureファミリー journalsとICLRにおけるLLMフィードバックと人間の査読を定量的に比較する。
LLM生成フィードバックの研究者の認識を前向きなユーザー研究を通じて評価する。

提案手法

全PDFを入力として構造化フィードバックを出力するGPT-4ベースのフィードバック生成パイプラインを構築する。
抽出型要約と意味的一致を用いてLLMフィードバックと人間のレビューとの重複を評価する。
レトロスペクティブ分析のため、2022年以降の論文と対応するレビューを含むNature系ジャーナルとICLRの2つのデータセットを編成する。
110の米国機関からなる308人の研究者を対象とした前向きなユーザー研究を実施し、LLMフィードバックの有用性と整合性を評価する。
LLMと人間のレビューア間のフィードバックの特異性と、LLMと人間のレビュアー間でのフィードバックの側面の分布を評価する。

実験結果

リサーチクエスチョン

RQ1GPT-4生成フィードバックはNatureデータとICLRデータの人間のレビューフィードバックとどの程度類似しているか？
RQ2GPT-4フィードバックは人間のレビュアーと同じ主要な問題点を特定しており、特に弱い論文に対して整合性が高いのか？
RQ3研究者は自分の論文に対するLLM生成フィードバックをどの程度有用と感じるか？
RQ4LLMベースの科学的フィードバックにはどのような限界と領域固有のギャップがあるか？

主な発見

GPT-4フィードバックはNatureデータで全体で57.55%、任意の単一レビュアーとで30.85%の重複を示す。
GPT-4フィードバックはICLRデータで全体で77.18%、任意の単一レビュアーとで39.23%の重複を示す。
ICLRの却下論文では重複が高く、GPT-4と人間のレビュアー間の重複は47.09%、2人の人間レビュアー間は43.80%であった。
GPT-4と人間のフィードバック間の重複は、データセット全体で2人の人間レビュアー間の重複と比較して同等である。
前向きなユーザー研究では、研究者の57.4%がGPT-4フィードバックを有用/非常に有用と回答し、82.4%が少なくとも一部の人間レビュアーより有益だと感じた。
参加者はLLMフィードバックが人間が必ずしも扱えない非ジェネリックで新規の視点を提供できる可能性があり、論文のタイムリーな改善に有用であると見なした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。