[논문 리뷰] Self-critiquing models for assisting human evaluators
본 논문은 대형 언어 모델을 미세조정하여 모델 출력물에 대한 자연어 비평을 생성하고, 이러한 비평이 인간이 더 많은 결함을 찾아내고, 모델 크기에 따라 확장되며, 비평 조건부 재정제에 의한 자기 개선을 가능하게 한다는 것을 보여준다.
We fine-tune large language models to write natural language critiques (natural language critical comments) using behavioral cloning. On a topic-based summarization task, critiques written by our models help humans find flaws in summaries that they would have otherwise missed. Our models help find naturally occurring flaws in both model and human written summaries, and intentional flaws in summaries written by humans to be deliberately misleading. We study scaling properties of critiquing with both topic-based summarization and synthetic tasks. Larger models write more helpful critiques, and on most tasks, are better at self-critiquing, despite having harder-to-critique outputs. Larger models can also integrate their own self-critiques as feedback, refining their own summaries into better ones. Finally, we motivate and introduce a framework for comparing critiquing ability to generation and discrimination ability. Our measurements suggest that even large models may still have relevant knowledge they cannot or do not articulate as critiques. These results are a proof of concept for using AI-assisted human feedback to scale the supervision of machine learning systems to tasks that are difficult for humans to evaluate directly. We release our training datasets, as well as samples from our critique assistance experiments.
연구 동기 및 목표
- 자연어 비평을 통한 AI 보조 인간 평가를 가능하게 하여 고위험 모델 출력에 대한 확장 가능한 감독을 고무한다.
- 모델이 생성한 비평이 인간이 작성한 요약과 모델 요약의 결함을 모두 발견하는 데 도움이 됨을 입증한다.
- 비평의 질이 모델 크기에 따라 어떻게 확장되는지 및 비평이 모델 출력의 개선에 어떻게 기여하는지 조사한다.
- 생성기, 판별기, 비평 능력을 비교하고 GDC 격차를 측정하는 프레임워크를 제안한다.
제안 방법
- 기본 과제와 공동 비평 과제에 대해 감독 학습을 사용하여 트랜스포머 디코더 모델을 미세조정한다.
- 기본 과제, 비평 및 보조 과제에 대한 시연을 수집하고 활용하여 비평 가능 모델을 학습한다.
- 기본 과제와 비평 과제를 공동으로 학습하여 비평 능력을 생성 능력과 맞춘다.
- 모델 생성 출력물과 인간 생성 출력물 전반에 걸쳐 인간 라벨러를 통해 비평의 유용성을 평가한다.
- 다양한 모델 크기를 비교하고 자가 비평과 판별 성능을 분석하여 확장성을 평가한다.
실험 결과
연구 질문
- RQ1모델이 작성한 비평이 보조 없이 요약에서 더 많은 결함을 식별하는 데 인간에게 도움이 되는가?
- RQ2더 큰 모델이 더 도움이 되는 비평과 더 나은 자가 비평 성능을 낼 수 있는가?
- RQ3모델이 생성한 비평이 후속 모델 답변의 재정제에 개선을 가져올 수 있는가?
- RQ4확장될 때 생성기, 판별기, 비평 능력은 어떻게 비교되며 남아 있는 격차는 무엇인가?
주요 결과
- 모델이 작성한 비평은 인간이 모델 및 인간이 생성한 출력에서 더 많은 비평을 찾는 데 유의하게 도움이 된다.
- 비평의 유용성은 일반적으로 모델 크기에 따라 확장되며, 평가하기 어려운 출력일지라도 그렇다.
- 비평은 모델 자가 재정제를 가능하게 하며, 비평 주도 재정제가 더 큰 모델에서 직접 재정제보다 더 나은 성능을 낼 수 있다.
- 생성기–판별기–비평(GDC) 간 측정 가능한 격차가 있으며, 비평의 개선이 판별과의 차이를 완전히 좁히지 못한다.
- 본 연구는 비평 보조 실험의 학습 데이터 세트와 샘플을 공개한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.