QUICK REVIEW

[論文レビュー] Design and Analysis of the NIPS 2016 Review Process

Nihar B. Shah, Behzad Tabibian|arXiv (Cornell University)|Aug 31, 2017

Explainable Artificial Intelligence (XAI)参考文献 16被引用数 48

ひとこと要約

この論文は、2,425件の提出物、3,242名のレビュー担当者、13,674件のレビューを対象にNIPS 2016の査読プロセスを分析し、公平性、キャリブレーション、効率性を評価している。順序スコア付けとグラフベースのレビュー担当者割り当てを提案することでバイアスを低減し、一貫性を向上させた。レビューのスコアには顕著なキャリブレーションのずれと同点評価が見られ、逆説的反論の影響は限定的であることが判明した。

ABSTRACT

Neural Information Processing Systems (NIPS) is a top-tier annual conference in machine learning. The 2016 edition of the conference comprised more than 2,400 paper submissions, 3,000 reviewers, and 8,000 attendees. This represents a growth of nearly 40% in terms of submissions, 96% in terms of reviewers, and over 100% in terms of attendees as compared to the previous year. The massive scale as well as rapid growth of the conference calls for a thorough quality assessment of the peer-review process and novel means of improvement. In this paper, we analyze several aspects of the data collected during the review process, including an experiment investigating the efficacy of collecting ordinal rankings from reviewers. Our goal is to check the soundness of the review process, and provide insights that may be useful in the design of the review process of subsequent conferences.

研究の動機と目的

急速に成長する国際会議におけるNIPS 2016査読プロセスの公平性、一貫性、信頼性を評価すること。
大規模なスケールでのレビュアー行動、スコアのキャリブレーション、意思決定バイアスに関するシステム的問題を特定すること。
逆説的反論と議論がレビュアーのスコアと意思決定結果に与える影響を評価すること。
大規模な査読において順序スコア付けとグラフ理論的レビュー担当者割り当ての実現可能性と利点を検討すること。
今後の国際会議査読プロセスの改善に向けた実行可能な知見と未解決の問題を提示すること。

提案手法

CMTから入手した査後データ（スコア、順位、レビュアーのコメント、レビュアー参加度のメトリクス）を収集・分析した。
グラフ理論的手法を用いてレビュアーと論文の関係をモデル化し、レビュー担当者の最適割り当てを実現した。
レビュアーが提供した順序スコアデータを活用し、一貫性の欠如や同点評価の低減を図った。
招待されたシニアレビュアーとボランティアレビュアーのスコア分布と分散を比較した。
逆説的反論の前後におけるレビュアーのスコア変化を評価し、レビュアーの反応性を測定した。
レビュアー行動の事後分析を実施し、自信度や議論への参加度を含めた。

実験結果

リサーチクエスチョン

RQ1レビュアーはスコア尺度においてどの程度キャリブレーションのずれを示しており、その影響が意思決定の公平性に及ぶか？
RQ2同点評価の低減とレビュアーの不一致の検出において、順序スコア付けは基数的スコアと比べてどの程度優れているか？
RQ3逆説的反論と議論はレビュアーのスコア変更にどのような影響を及ぼし、レビュアーのタイプによってその影響は異なるか？
RQ4研究分野やレビュアー集団ごとに、受入率に体系的なバイアスが存在するか？
RQ5グラフベースのレビュアー割り当ては、査読の質を向上させるとともに、レビュアーの負荷の不均衡を軽減できるか？

主な発見

レビュアーおよび分野責任者の中には、肯定的な応募をした割合が非常に小さく、初期段階の参加意欲が低いことが示された。
グラフ理論的手法は、レビュアーと論文の関係を効果的にモデル化でき、より良いレビュアー割り当てを支援できる。
レビュアーはスコア尺度において顕著なキャリブレーションのずれを示しており、多様な論文に対して同じスコアを付与するケースが多数見られた。
順序スコア付けにより同点評価が低減され、レビュアーの不一致の検出にも役立つことが示され、基数的スコアの代替案として有効であることが示唆された。
逆説的反論の前後でレビュアーのスコアに顕著な変化が見られず、著者からのフィードバックへの反応性が限定的であることが判明した。
研究分野間での受入率に顕著なバイアスは認められなかったが、自信度や作業量に差が見られるレビュアー集団の違いが指摘された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。