QUICK REVIEW

[논문 리뷰] Fine-tuning Language Models for Factuality

Katherine Tian, Eric Mitchell|arXiv (Cornell University)|2023. 11. 14.

Topic Modeling인용 수 10

한 줄 요약

이 논문은 Direct Preference Optimization을 사용하여 인간 라벨 없이도 참조-없는 및 참조-기반 사실성 튜닝으로 LLM을 더 사실적으로 긴 형식 텍스트를 생성하도록 미세조정하고, 생애기록(biographies) 및 의료 QA 태스크에서 RLHF 및 디코딩 기반 방법보다 사실성을 향상시킵니다.

ABSTRACT

The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.

연구 동기 및 목표

대형 언어 모델의 사실성 부정확성('hallucinations') 문제에 대한 동기 부여 및 해결.
자동으로 생성된 선호 데이터를 활용하는 인간 라벨링 없이 사용하는 사실 기반 미세조정 파이프라인을 제안.
학습을 안내하기 위한 참조 기반 및 참조-없음(truthfulness estimators)을 비교.
사실성 중심 튜닝이 RLHF를 능가하고 디코딩 시점의 사실성 개입과 보완 관계에 있을 수 있음을 입증.
생애기록 생성 및 의료 Q&A 태스크 전반에 걸쳐 일반성과 강건성을 보여주기 위한 평가.

제안 방법

명시적 보상 모델링이나 온라인 샘플링 없이 선호 쌍으로부터 언어 모델을 미세조정하기 위해 Direct Preference Optimization(DPO)을 사용.
라벨이 없는 프롬프트에서 후보 응답의 진실성 추정기로 점수를 매겨 더 진실한 응답을 선호 옵션으로 선택하여 선호 데이터를 구성.
참조 기반 진실성의 경우 원자적 주장(atomic claims)을 추출하고 Wikipedia(FactScore) 대비 Fine-tuned fact-checking 모델로 지원을 확인.
참조-없는 진실성의 경우 각 원자적 주장을 최소 모호한 질문으로 바꾸고 모델의 확신을 추정하기 위해 재샘플링된 답변으로 불확실성을 측정.
결과 선호 데이터로 DPO로 학습하여 모델이 더 진실된 출력으로 향하도록 밀어낸다.
RLHF 기반 채팅 모델과의 호환성 및 DOLA와 같은 디코딩 시 사실성 개입과의 시너지 가능성도 조사한다.

실험 결과

연구 질문

RQ1자동으로 생성된 선호 순위를 학습하여 인간 라벨링 없이 긴 형식 생성의 사실성을 개선할 수 있는가?
RQ2참조 기반 및 참조-없는 진실성 추정기가 사실성 튜닝의 방향 설정에 어떻게 비교되는가?
RQ3사실성 중심 미세조정이 RLHF 및 디코딩 시 개입과 보완하는가, 충돌하는가?
RQ4생애기록 및 의료 Q&A와 채팅 모델과 같은 여러 도메인에서 이 방법이 효과적이며 일반화될 수 있는가?
RQ5사실성 튜닝 후 모델 출력에서 질적 변화가 어떤 변화가 나타나는가(예: 스타일, 구조)?

주요 결과

모델	방법	생애기록 #정확	생애기록 #오류	생애기록 %정확	의료QA #정확	의료QA %정확
Llama-1	ITI	11.67	0	0.669	0	0.0
Llama-1	DOLA	11.75	0	0.754	0	0.0
Llama-1	SFT	13.78	12.16	0.568	10.75	0.631
Llama-1	FactTune-FS (ours)	14.81	0	0.812	10.88	0.450
Llama-1	FactTune-MC (ours)	10.59	0	0.783	12.31	0.646
Llama-2	ITI	18.50	0	0.760	10.97	0.730
Llama-2	DOLA	13.41	0	0.696	0	0.0
Llama-2	SFT	12.19	0	0.701	11.75	0.635
Llama-2	FactTune-FS (ours)	17.06	0	0.895	12.53	0.783
Llama-2	FactTune-MC (ours)	11.31	0	0.846	11.41	0.704

FactTune-FS(참조 기반 선호)는 생애기록 및 의료 QA에서 RLHF 및 디코딩 벤치마크 대비 사실 정확도를 일관되게 향상시킨다.
FactTune-FS는 사실 오류를 줄이고 정확한 사실을 증가시켜 두 태스크에서 기준보다 더 높은 정답 비율(%Correct)을 달성한다.
FactTune-MC(참조-없는, 모델 확신 선호)도 오류율을 줄이고 사실성을 개선하며 외부 참조 없이도 강력하고 확장 가능한 대안을 제공한다.
사실성 튜닝은 디코딩 시 개입(DOLA 등)을 보완할 수 있으며 사실성에서 혼합되지만 종종 긍정적인 이득을 보인다.
사실성 목표를 가진 튜닝은 RLHF 채팅 모델(Llama-2-7b-Chat)에 대해 사실성 목표와 결합될 때 사실성을 향상시킨다.
인간 및 GPT-4 평가가 FactScore 개선과 상관관계가 있어 보상 과적합 감소 및 진정한 사실성 개선을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.