[論文レビュー] In which fields can ChatGPT detect journal article quality? An evaluation of REF2021 results
この研究は、ChatGPT 4o-mini が REF2021 の分野全体でジャーナル記事の質を推定できるかを、部門の平均と比較して評価する。
Time spent by academics on research quality assessment might be reduced if automated approaches can help. Whilst citation-based indicators have been extensively developed and evaluated for this, they have substantial limitations and Large Language Models (LLMs) like ChatGPT provide an alternative approach. This article assesses whether ChatGPT 4o-mini can be used to estimate the quality of journal articles across academia. It samples up to 200 articles from all 34 Units of Assessment (UoAs) in the UK's Research Excellence Framework (REF) 2021, comparing ChatGPT scores with departmental average scores. There was an almost universally positive Spearman correlation between ChatGPT scores and departmental averages, varying between 0.08 (Philosophy) and 0.78 (Psychology, Psychiatry and Neuroscience), except for Clinical Medicine (rho=-0.12). Although other explanations are possible, especially because REF score profiles are public, the results suggest that LLMs can provide reasonable research quality estimates in most areas of science, and particularly the physical and health sciences and engineering, even before citation data is available. Nevertheless, ChatGPT assessments seem to be more positive for most health and physical sciences than for other fields, a concern for multidisciplinary assessments, and the ChatGPT scores are only based on titles and abstracts, so cannot be research evaluations.
研究の動機と目的
- 研究の質評価に費やす学者の時間を削減する動機づけ。
- 大規模言語モデルが学際的なジャーナル記事の質を推定できるかを検討する。
- ChatGPT由来のスコアと確立された REF201가 の平均との相関を評価する。
提案手法
- すべての 34 の REF2021 Units of Assessment (UoAs) から最大200件の記事をサンプルする。
- 各記事について ChatGPT スコアを計算し、部門平均スコアと比較する。
- ChatGPT スコアと部門平均の相関で関連を評価する。
- 分野別の変動を分析し、顕著な異常値を特定する。
- ChatGPT のスコアはタイトルと要約のみを基にしていることに注意する。
実験結果
リサーチクエスチョン
- RQ1ChatGPT由来のスコアは学科を超えて、部門が報告した REF2021 の質スコアに近似できるか?
- RQ2ChatGPT スコアと部門平均の相関は分野ごとにどう変化するか?
- RQ3ChatGPT が著しく低いまたは高いパフォーマンスを示す分野はあるか?
- RQ4タイトルと要約のみを用いた品質評価から生じる制約は何か?
主な発見
- ほとんどの分野で ChatGPT スコアと部門平均のスピアマン相関はほぼ一様に正である。
- 相関は 0.08(哲学)から 0.78(心理学、精神医学および神経科学)までの範囲。
- 臨床医学は負の相関を示す(rho = -0.12)。
- ChatGPT の推定は、ほとんどの健康科学および物理科学で他の分野よりもポジティブになる傾向がある。
- ChatGPT の評価はタイトルと要約のみに依存しており、完全な研究評価には制限がある。
- 結果は、LLMs が多くの領域で合理的な品質推定を提供できることを示唆しており、特に物理科学・健康科学および工学で、引用データを得る前でもそうである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。