[論文レビュー] News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT 3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking
本論文は、GPT-3.5、GPT-4、Bard、Bing AI の4つの著名なLLMを対象に、100件の事実確認済みニュース項目を評価し、回答を True、False、または Partially True/False に分類し、独立した検証と比較します。
This study aimed to evaluate the proficiency of prominent Large Language Models (LLMs), namely OpenAI's ChatGPT 3.5 and 4.0, Google's Bard(LaMDA), and Microsoft's Bing AI in discerning the truthfulness of news items using black box testing. A total of 100 fact-checked news items, all sourced from independent fact-checking agencies, were presented to each of these LLMs under controlled conditions. Their responses were classified into one of three categories: True, False, and Partially True/False. The effectiveness of the LLMs was gauged based on the accuracy of their classifications against the verified facts provided by the independent agencies. The results showed a moderate proficiency across all models, with an average score of 65.25 out of 100. Among the models, OpenAI's GPT-4.0 stood out with a score of 71, suggesting an edge in newer LLMs' abilities to differentiate fact from deception. However, when juxtaposed against the performance of human fact-checkers, the AI models, despite showing promise, lag in comprehending the subtleties and contexts inherent in news information. The findings highlight the potential of AI in the domain of fact-checking while underscoring the continued importance of human cognitive skills and the necessity for persistent advancements in AI capabilities. Finally, the experimental data produced from the simulation of this work is openly available on Kaggle.
研究の動機と目的
- 最先端のLLMがブラックボックステストを用いてニュース項目の真実と虚偽を見分ける能力を評価する。
- 四つの主要LLMを独立して検証された事実確認と比較する。
- AIベースの事実検証の全体的な正確性と文脈上の強み/弱みを定量化する。
- Kaggleを通じて再現性のためのオープンデータを提供する。
提案手法
- 独立機関の100件の事実確認済みニュース項目に対する四つのLLMのブラックボックス評価。
- 回答は True、False、および Partially True/False のカテゴリに分類。
- 正確性は独立検証との一致度として測定。
- 実験データはKaggleで公開される。
実験結果
リサーチクエスチョン
- RQ1各モデルはニュース項目を True、False、または Partially True/False としてどの程度正確に分類できるか?
- RQ2この設定で最も総合性能が良いのはどのモデルか?
- RQ3本データセットにおけるAIモデルの性能は人間のファクトチェッカーとどう比較されるか?
- RQ4ニュースの事実確認におけるAIモデルの制約と、苦戦する文脈は何か?
主な発見
- 各モデルの平均正確度は100点満点中65.25点。
- GPT-4.0が最高得点71点を達成。
- すべてのモデルは中程度の能力を示し、微妙さと文脈を把握する点で人間のファクトチェッカーには及ばない。
- AIは事実確認の可能性を示すが、継続的なAI能力の向上と人間の監視が必要。
- 研究の実験データはKaggleで公開されている。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。