[논문 리뷰] WebGPT: Browser-assisted question-answering with human feedback
텍스트 기반 웹 브라우징 환경을 통해 장문 질문에 답하도록 GPT-3를 미세조정하고, 인간의 피드백과 참고문헌을 활용한 모방 학습 및 보상 모델링을 사용합니다. 최적 모델은 선호 평가에서 인간 시연자와 Reddit의 최고 투표 답변을 능가합니다.
We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using imitation learning, and then optimize answer quality with human feedback. To make human evaluation of factual accuracy easier, models must collect references while browsing in support of their answers. We train and evaluate our models on ELI5, a dataset of questions asked by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior cloning, and then performing rejection sampling against a reward model trained to predict human preferences. This model's answers are preferred by humans 56% of the time to those of our human demonstrators, and 69% of the time to the highest-voted answer from Reddit.
연구 동기 및 목표
- 웹 브라우저에 검색을 외주하고 언어 모델로 합성하여 장문 QA를 촉진합니다.
- 인간 시연과 비교를 활용한 모방 학습을 통한 학습을 가능하게 합니다.
- 인간의 선호에 대항하는 보상 모델링과 거절 샘플링을 사용하여 답변 품질을 향상시킵니다.
- 사실 주장에 대한 모델 생성 참고문헌을 요구하여 평가를 용이하게 합니다.
제안 방법
- 모델이 브라우저와 같은 명령을 실행할 수 있는 텍스트 기반 웹 브링징 환경을 만듭니다.
- 사람의 시연에서의 행동 클로닝을 사용하여 GPT-3 모델들(760M, 13B, 175B)을 미세조정합니다.
- 참고문헌이 포함된 답변 품질을 평가하기 위해 인간 비교로부터 보상 모델을 학습합니다.
- 보상 모델에 대한 강화 학습(PPO) 및/또는 높은 점수를 받은 답을 선택하기 위한 거절 샘플링(best-of-n)을 사용합니다.
- ELI5와 TruthfulQA 전반에 걸쳐 평가하고, 인간 시연 및 Reddit 최고 투표 답변과 비교합니다.
실험 결과
연구 질문
- RQ1언어 모델이 검색/검색, 합성, 그리고 인간 선호를 함께 학습함으로써 고품질의 장문 질문 응답을 달성할 수 있나요?
- RQ2웹 브라우징 설정에서 인간 시연과 비교가 기준선이나 자동화된 지표에 비해 우수한 답변으로 이어지나요?
- RQ3보상 모델에 대해 거절 샘플링과 강화 학습 중 어느 것이 답변 최적화에 더 효과적인가요?
- RQ4TruthfulQA와 같은 적대적이거나 분포를 벗어난 데이터셋에서 WebGPT의 진실성과 정보성은 어떠한가요?
주요 결과
- 175B 모델에서 Best-of-64 샘플링은 인간 시연자에 비해 선호되는 답변을 56%의 시간에 제공합니다.
- 동일 모델의 답변은 Reddit의 최고 투표 답변보다 69%의 시간에 선호됩니다(인용문 제거).
- TruthfulQA에서 진실성과 정보성 지표 면에서 모든 WebGPT 모델이 GPT-3 기본 모델을 능가합니다.
- 거절 샘플링은 BC 대비 상당한 이점을 제공하고; RL은 더 작은 이점을 제공하며, RL과 거절 샘플링의 결합은 추가 이점이 제한적입니다.
- 스케일링 추세로 더 큰 모델과 더 많은 데이터가 보상-모델 기반 선호도와 진실성 지표를 향상시킵니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.