QUICK REVIEW

[논문 리뷰] Training Language Models with Language Feedback at Scale

Jérémy Scheurer, Jon Ander Campos|arXiv (Cornell University)|2023. 03. 28.

Topic Modeling인용 수 16

한 줄 요약

ILF를 소개하는 반복적 학습 방법으로 자유 형식의 언어 피드백으로 언어 모델을 다듬고 미세조정하며, 요약에서 확장 가능한 개선을 시연하고 일부 인간 소스 베이스라인보다 우수한 성과를 보임.

ABSTRACT

Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.

연구 동기 및 목표

언어 피드백으로부터의 학습을 비교 기반 피드백의 확장 가능한 대안으로 동기 부여하고 형식화한다.
정제 및 미세조정 스텝으로 ILF(Imitation Learning from Language Feedback) 알고리즘을 개발한다.
ILF가 베이지안 추론에 대응하고 인간 피드백으로부터의 RL과의 관계를 밝힌다.
합성 공격 단어 제거와 새로운 데이터셋을 활용한 실세계 요약 작업에서 ILF를 평가한다.
정교화, 순위 방법, 하이브리드 피드백(언어 + 이진 피드백)을 조사해 인간 수준의 성능에 도달한다.

제안 방법

세 단계의 ILF 루프: 입력 c, 초기 출력 x0, 피드백 f를 조건으로 정제 x1을 생성; 점수 모델을 사용해 최상의 정제를 선택; 선택된 정제를 최대화하도록 원래 LM을 미세조정한다.
피드백을 정제 모델 πψ와 피드백 조건 생성으로 통합하는 정제 제안 qc(x1)을 사용한다.
중요도 표집 기반 KL 최소화를 사용해 학습 목표를 근사화하고, 맥락하에서 상위 정제의 로그 확률을 효과적으로 최대화하는 목표(Eq. 4)로 수렴한다.
x0에 대한 피드백을 충분히 반영하는지 예측하는 명령어 미세조정 LM으로 보상 R을 모델링하고, β → ∞일 때 최상의 정제를 자기 정규화로 선택하도록 한다.
ILF를 베이지안 추론으로 검증하고 KL 페널티를 가진 인간 피드백에서의 RL과의 관계를 밝히며, 대형 모델과 대규모 데이터셋으로의 확장 가능성을 시연한다.
정제 능력을 합성 공격 단어 제거 작업과 Reddit TL;DR 요약 데이터셋에서 실험적으로 검증하고, 순위 방법(InstructRM Ensemble 대 Embedding Similarity)과 미세조정 베이스라인을 비교한다.

실험 결과

연구 질문

RQ1언어 피드백이 LLM이 인간 선호를 더 잘 반영한 정제를 생성하도록 하는가?
RQ2ILF를 대규모로 효과적으로 학습시킬 수 있으며 인간 요약에 대한 미세조정이나 이진 피드백 베이스라인보다 우수한가?
RQ3피드백을 반영한 정제를 선택하는 데 필요한 최적의 순위 방법은 무엇인가?
RQ4언어 피드백과 이진 피드백의 결합이 요약 품질에 어떤 영향을 미치는가?
RQ5가장 중요한 피드백 포인트를 반영하는 측면에서 정제가 초기 요약과 비교해 어떻게 다른가?

주요 결과

가장 큰 175B GPT-3 모델만이 합성 공격 단어 제거 작업에서 의미 있게 피드백을 반영하는 것으로 나타났으며, 정제 실험을 위한 모델 선택에 가이드를 제공한다.
요약 작업에서 피드백 기반 정제 미세조정으로 ILF가 인간 요약에 대한 미세조정 등 베이스라인을 능가한다(샘플 수 100, 1K, 5K에서 모두).
하이브리드 ILF + 이진 피드백 접근법(best-of-N과 OPT-RM 보상 모델)은 5K 샘플에서 인간 수준의 요약 성능(~50.8% 승률)에 도달한다.
순위에 InstructRM Ensemble를 사용할 때 정제 품질이 향상되어 피드백 반영의 최적 예시를 더 잘 보여준다.
언어 피드백은 정제를 크게 향상시키며, best-of-N 선택은 인간 선호도와의 정합성을 추가로 높인다.
Best-of-N 샘플링을 사용할 때 정제가 가장 중요한 피드백 포인트를 더 자주 반영하는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.