[논문 리뷰] Teaching language models to support answers with verified quotes
논문은 280B 파라미터 언어 모델인 GopherCite를 사용해 검색된 출처로부터의 인라인, 발췌 인용을 통해 질문에 답하도록 지도학습 파인튜닝과 인간 선호로부터의 강화 학습(RLHF)을 활용해 그럴듯함과 근거를 개선합니다.
Recent large language models often answer factual questions correctly. But users can't trust any given claim a model makes without fact-checking, because language models can hallucinate convincing nonsense. In this work we use reinforcement learning from human preferences (RLHP) to train "open-book" QA models that generate answers whilst also citing specific evidence for their claims, which aids in the appraisal of correctness. Supporting evidence is drawn from multiple documents found via a search engine, or from a single user-provided document. Our 280 billion parameter model, GopherCite, is able to produce answers with high quality supporting evidence and abstain from answering when unsure. We measure the performance of GopherCite by conducting human evaluation of answers to questions in a subset of the NaturalQuestions and ELI5 datasets. The model's response is found to be high-quality 80\% of the time on this Natural Questions subset, and 67\% of the time on the ELI5 subset. Abstaining from the third of questions for which it is most unsure improves performance to 90\% and 80\% respectively, approaching human baselines. However, analysis on the adversarial TruthfulQA dataset shows why citation is only one part of an overall strategy for safety and trustworthiness: not all claims supported by evidence are true.
연구 동기 및 목표
- 답변이 그대로 인용된 증거 문구와 함께 쌍으로 제시되는 자기-지원형 질의응답 태스크(SQA)를 개발한다.
- 증거를 쉽게 검증할 수 있도록 모델 출력에 대한 신뢰를 높인다.
- 모호할 때는 기피를 가능하게 하여 벤치마크 데이터셋의 정답 품질을 향상시킨다.
- 자연스러운 질문과 어린이에게 설명하듯이 질문에 대해 인간의 판단으로 타당성과 근거를 평가한다.
제안 방법
- 답변 텍스트 내에서 검색된 문서를 인용 구문으로 삽입하는 Inline Evidence 구문을 도입한다.
- 사람이 평가한 타당하고 근거 있는 샘플에 대해 감독 학습으로 280B Gopher 모델을 파인튜닝한다.
- 답변-증거 쌍에 대한 인간의 선호를 예측하는 보상 모델을 학습하고 정책을 최적화하기 위해 RL(A2C)을 사용한다.
- Google 검색을 통한 검색으로 대형 컨텍스트 문서를 제공하고, 샘플링과 비모수적 컨텍스트를 통해 최신의 근거를 확보한다.
- 신뢰도가 낮을 때 답변을 피하도록 보상 모델 점수를 임계값으로 차단하는 기법으로 기피를 구현한다.
실험 결과
연구 질문
- RQ1언어 모델이 검색된 문서의 인용 구문으로도 그럴듯하고 근거가 있는 답변을 생성할 수 있는가?
- RQ2사람의 선호에 따른 강화 학습이 감독 파인튜닝을 넘어 SQA 성능을 향상시키는가?
- RQ3답변을 피하는 메커니즘이 전체 답변 품질과 커버리지를 향상시키는가?
- RQ4외부 소스에 의존하는 진실성의 한계는 적대적 환경에서 무엇인가?
주요 결과
- GopherCite는 NaturalQuestionsFiltered에서 약 80%, ELI5Filtered에서 약 67%의 경우 그럴듯하고 근거 있는 답변을 제공합니다.
- 모델이 일부 질문에만 답하도록 선택하는 경우 기피 임계값은 NaturalQuestions에서 90% 이상, ELI5에서 80%로 성능을 향상시킵니다.
- 보상 모델로 재정렬 및 RL 파인튜닝은 순수 감독 기반 기준선 대비 점수를 크게 향상시킵니다.
- TruthfulQA에서 인용만으로는 진실성 보장이나 오도하는 증거의 완화를 보장하지 않습니다.
- 시스템은 크고 최신의 검색 소스와 구문을 그대로 인용하는 것이 검증을 돕는 데 이롭습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.