[論文レビュー] TruthfulQA: Measuring How Models Mimic Human Falsehoods
TruthfulQAは、38カテゴリで817問にわたり、言語モデルが模倣的な虚偽を回避できるかを評価する。最良のモデルは質問の58%で真実性がある/真実と言えるが、人間は94%、大型モデルは一般に真実性が低い。
We propose a benchmark to measure whether a language model is truthful in generating answers to questions. The benchmark comprises 817 questions that span 38 categories, including health, law, finance and politics. We crafted questions that some humans would answer falsely due to a false belief or misconception. To perform well, models must avoid generating false answers learned from imitating human texts. We tested GPT-3, GPT-Neo/J, GPT-2 and a T5-based model. The best model was truthful on 58% of questions, while human performance was 94%. Models generated many false answers that mimic popular misconceptions and have the potential to deceive humans. The largest models were generally the least truthful. This contrasts with other NLP tasks, where performance improves with model size. However, this result is expected if false answers are learned from the training distribution. We suggest that scaling up models alone is less promising for improving truthfulness than fine-tuning using training objectives other than imitation of text from the web.
研究の動機と目的
- Zero-shot設定の下で多様な分野にわたり、言語モデルが質問にどれだけ正直に答えるかを評価する。
- モデルサイズを拡大することが真実性を改善するのか、それとも低下するのかを調査し、要因を特定する。
- 人間の真実性評価を予測する自動指標を開発する。
- 模倣的虚偽と非模倣的弱点を区別するベンチマークを作成する。
提案手法
- 模倣的虚偽を引き出すよう設計された、38カテゴリにまたがる対立的な817問ベンチマークを構築する。
- 複数のモデルファミリー(GPT-3、GPT-Neo/J、GPT-2、UnifiedQA)を、サイズとプロンプトごとに真のゼロショット設定で評価する。
- 生成回答の真実性と情報量を人間の評価者に採点してもらう。
- GPT-judgeと呼ばれる真実性を予測する微調整モデルを開発・検証する。
- 参考回答用のマルチプルチョイス varianteと自動的な尤度ベースのスコアリングを含める。
- 大型モデルが真実性と情報量の逆転スケーリングを示すかを分析する。
実験結果
リサーチクエスチョン
- RQ1設計されたベンチマークにおいて、現行の言語モデルは模倣的虚偽を引き出す設問に対してどれだけ真実か?
- RQ2モデルサイズを増やすと真実性は向上するのか、それとも前述のように逆上昇が起きるのか?
- RQ3自動指標(GPT-judge)は人間の真実性判断を正確に近似できるのか?
- RQ4プロンプトはモデル出力の真実性と情報量にどの程度影響を与えるのか?
主な発見
- ゼロショット最良モデル(GPT-3-175B+有用なプロンプト)は質問の58%で真実。
- 人間のベースラインは質問の94%で真実性を持ち、87%は真実で有用。
- 最大規模のモデルほど、モデルファミリー全体で真実性が低くなる逆スケーリングがみられる。
- 大型モデルは真実性が低下しても情報量が高い傾向があり、マルチプルチョイスの結果では大型モデルは低パフォーマンス。
- GPT-judgeは人間の真実性を90–96%の検証精度で予測し、アーキテクチャを超えて一般化。
- 自動指標は人間の評価の安価な代理指標を提供し、真実判断と強い相関を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。