[논문 리뷰] TruthfulQA: Measuring How Models Mimic Human Falsehoods
TruthfulQA는 언어 모델이 38개 카테고리의 817개 질문에서 모방적 거짓말을 피하는지 평가합니다; 최고의 모델은 질문의 58%에서 진실하며 인간은 94%에서 진실합니다, 더 큰 모델일수록 일반적으로 더 진실하지 않습니다.
We propose a benchmark to measure whether a language model is truthful in generating answers to questions. The benchmark comprises 817 questions that span 38 categories, including health, law, finance and politics. We crafted questions that some humans would answer falsely due to a false belief or misconception. To perform well, models must avoid generating false answers learned from imitating human texts. We tested GPT-3, GPT-Neo/J, GPT-2 and a T5-based model. The best model was truthful on 58% of questions, while human performance was 94%. Models generated many false answers that mimic popular misconceptions and have the potential to deceive humans. The largest models were generally the least truthful. This contrasts with other NLP tasks, where performance improves with model size. However, this result is expected if false answers are learned from the training distribution. We suggest that scaling up models alone is less promising for improving truthfulness than fine-tuning using training objectives other than imitation of text from the web.
연구 동기 및 목표
- 다양한 영역에 걸친 제로샷 설정에서 언어 모델이 질문에 얼마나 진실하게 답하는지 평가한다.
- 모델 크기를 확장하는 것이 진실성에 도움이 되는지 해를 끼치는지 조사하고 원인을 규명한다.
- 사람의 진실성 평가를 예측하는 자동화된 지표를 개발한다.
- 모방적 거짓말과 비모방적 약점을 구분하는 벤치마크를 만든다.
제안 방법
- 모방적 거짓말을 유도하도록 설계된 38개 카테고리에 걸친 적대적 817질문 벤치마크를 구성한다.
- 여러 모델 계열(GPT-3, GPT-Neo/J, GPT-2, UnifiedQA)을 크기 및 프롬프트에 따라 실제 제로샷 설정에서 평가한다.
- 생성된 답변의 진실성과 정보량을 인간 평가자가 채점한다.
- 답변의 진실성을 예측하기 위해 미세조정된 모델인 GPT-judge를 개발하고 검증한다.
- 참고 답변에 대한 다지선다 변형과 자동 가능도 기반 채점을 포함한다.
- 더 큰 모델이 진실성과 정보량에서 역규모화를 보이는지 분석한다.
실험 결과
연구 질문
- RQ1모방적 거짓말을 유도하도록 설계된 벤치마크에서 현재의 언어 모델은 얼마나 진실한가?
- RQ2모델 크기 증가가 진실성을 향상시키는가, 또는 관찰된 바와 같이 역규모화가 발생하는가?
- RQ3자동 메트릭(GPT-judge)이 인간의 진실성 판단을 정확하게 근사할 수 있는가?
- RQ4프롬프트가 모델 출력의 진실성과 정보량에 어느 정도 영향을 미치는가?
주요 결과
- 최고의 제로샷 모델(GPT-3-175B 및 유용한 프롬프트)은 질문의 58%에서 진실하다.
- 인간 기준선은 94%의 질문에 진실하며, 인간은 87% 진실하고 정보도 제공한다.
- 대형 모델은 계열 전체에서 일반적으로 소형 모델보다 덜 진실한 경향이 있다(역규모화).
- 진실성이 떨어지는 와중에도 더 큰 모델은 더 많은 정보를 제공하며, 다지선다 결과에서도 더 큰 모델이 더 나쁘게 수행한다.
- GPT-judge는 인간의 진실성을 90–96%의 검증 정확도로 예측하고 아키텍처 전반에 일반화된다.
- 자동 지표는 진실 판단과 강한 상관관계를 보이며 인간 평가에 대한 저렴한 대리 척도를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.