Skip to main content
QUICK REVIEW

[論文レビュー] AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews

Keith Tyser, Ben Segev|arXiv (Cornell University)|Aug 19, 2024
Scientific Computing and Data Management被引用数 7
ひとこと要約

本論文は、3つのLLMベースの査読システム(OpenReviewer、Papers with Reviews、Reviewer Arena)と、スケーラブルな学術査読における人間の嗜好との一致、バイアス、制約を評価する4つの評価方法を提示する。

ABSTRACT

Automatic reviewing helps handle a large volume of papers, provides early feedback and quality control, reduces bias, and allows the analysis of trends. We evaluate the alignment of automatic paper reviews with human reviews using an arena of human preferences by pairwise comparisons. Gathering human preference may be time-consuming; therefore, we also use an LLM to automatically evaluate reviews to increase sample efficiency while reducing bias. In addition to evaluating human and LLM preferences among LLM reviews, we fine-tune an LLM to predict human preferences, predicting which reviews humans will prefer in a head-to-head battle between LLMs. We artificially introduce errors into papers and analyze the LLM's responses to identify limitations, use adaptive review questions, meta prompting, role-playing, integrate visual and textual analysis, use venue-specific reviewing materials, and predict human preferences, improving upon the limitations of the traditional review processes. We make the reviews of publicly available arXiv and open-access Nature journal papers available online, along with a free service which helps authors review and revise their research papers and improve their quality. This work develops proof-of-concept LLM reviewing systems that quickly deliver consistent, high-quality reviews and evaluate their quality. We mitigate the risks of misuse, inflated review scores, overconfident ratings, and skewed score distributions by augmenting the LLM with multiple documents, including the review form, reviewer guide, code of ethics and conduct, area chair guidelines, and previous year statistics, by finding which errors and shortcomings of the paper may be detected by automated reviews, and evaluating pairwise reviewer preferences. This work identifies and addresses the limitations of using LLMs as reviewers and evaluators and enhances the quality of the reviewing process.

研究の動機と目的

  • 基盤モデルを活用した大規模な査読の必要性を動機づけ、品質管理を維持しつつバイアスを低減する。
  • arXiv および Open Access Nature 論文の査読を生成・収集・評価する3つの査読システムを開発・展開する。
  • 人間の嗜好、自動的なLLM評価、および嗜好予測を用いて、LLMの査読と人間の査読の整合性を評価する。
  • LLMベースの査読の制限と潜在的リスクを特定し、緩和戦略を提案する。

提案手法

  • 3つの査読システム:OpenReviewer(LLM支援による査読)、Papers with Reviews(大規模な査読収集とスコア付け)、Reviewer Arena(査読のペアワイズ比較)。
  • 4つの評価方法:匿名の人間評価、自動的なLLM評価、LLMによる人間の嗜好の自動予測、意図的な論文の改変によるLLM査読の限界の自動発見。
  • 著者、査読者、エリアチェア、プログラムチェアを模擬するLLMによるロールプレイ。
  • 複数の文書(査読フォーム、ガイドライン、倫理コード、統計情報)をコンテキストとして使用し、LLMの査読を校正し会場の規範に合わせる。
Figure 1: OpenReviewer: A user uploads their paper, which is automatically reviewed, and receives the review along with instructions for revision. The user may provide feedback and upload a revised version.
Figure 1: OpenReviewer: A user uploads their paper, which is automatically reviewed, and receives the review along with instructions for revision. The user may provide feedback and upload a revised version.

実験結果

リサーチクエスチョン

  • RQ1ブラインド評価およびGPT-4ベースの比較において、LLM生成の査読は人間の嗜好と一致しますか?
  • RQ2固定・適応・生成された査読プロンプト全体にわたる、学術査読者としてのLLMsの長所と限界は何ですか?
  • RQ3ペアワイズ嗜好データ、Bradley-Terry modeling、そして自動評価アプローチを用いて、査読者の質とランキングをどのように定量化できますか?
  • RQ4LLMベースの査読にはどのようなバイアスや誤りが現れ、それらは prompting、文脈、後処理によってどのように緩和できますか?
  • RQ5会場固有のガイドラインと補助資料は、自動化された査読の品質と信頼性にどのように影響しますか?

主な発見

  • LLMによる査読は、ブラインド評価およびGPT-4ベースの比較では人間の査読と概ね一致しており、特定のモデルは一部の設定で人間を上回る。
  • GPT-4 Turbo (April 9, 2024) は5名の査読者のうち人間の嗜好テストでトップ評価を獲得;人間が2位、他のLLMが続く。
  • Bradley-Terry modeling により査読者の強さ順位が得られ;GPT-4 Turbo が首位、続いて Human、次いで Command R+、Claude 3 Opus および Gemini Pro は遅れをとる。
  • Automatic evaluation using PPI-based methods can reduce reliance on human data and improve efficiency in preference prediction.
  • Automatic discovery of limitations by introducing paper errors helps map LLM sensitivity to specific types of content and shortcomings.
Figure 2: Papers with Reviews: Our system collects papers from arXiv and open-access Nature journals, reviews, ranks, and displays their title, authors, abstract, review, and review score, linking back to the papers on arXiv and Nature. Users provide feedback on the reviews, which is then used to im
Figure 2: Papers with Reviews: Our system collects papers from arXiv and open-access Nature journals, reviews, ranks, and displays their title, authors, abstract, review, and review score, linking back to the papers on arXiv and Nature. Users provide feedback on the reviews, which is then used to im

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。