Skip to main content
QUICK REVIEW

[논문 리뷰] Recursively Summarizing Books with Human Feedback

Jeff Wu, Long Ouyang|arXiv (Cornell University)|2021. 09. 22.
Topic Modeling참고 문헌 66인용 수 66
한 줄 요약

이 논문은 재귀적 작업 분해와 인간 피드백 학습을 결합하여, 더 작은 부분을 반복적으로 요약하고 이를 재귀적으로 구성함으로써 책 전체를 요약할 수 있는 모델을 훈련합니다.

ABSTRACT

A major challenge for scaling machine learning is training models to perform tasks that are very difficult or time-consuming for humans to evaluate. We present progress on this problem on the task of abstractive summarization of entire fiction novels. Our method combines learning from human feedback with recursive task decomposition: we use models trained on smaller parts of the task to assist humans in giving feedback on the broader task. We collect a large volume of demonstrations and comparisons from human labelers, and fine-tune GPT-3 using behavioral cloning and reward modeling to do summarization recursively. At inference time, the model first summarizes small sections of the book and then recursively summarizes these summaries to produce a summary of the entire book. Our human labelers are able to supervise and evaluate the models quickly, despite not having read the entire books themselves. Our resulting model generates sensible summaries of entire books, even matching the quality of human-written summaries in a few cases ($\sim5\%$ of books). We achieve state-of-the-art results on the recent BookSum dataset for book-length summarization. A zero-shot question-answering model using these summaries achieves state-of-the-art results on the challenging NarrativeQA benchmark for answering questions about books and movie scripts. We release datasets of samples from our model.

연구 동기 및 목표

  • 확장 가능한 감독을 통해 길고 평가하기 어려운 작업에서 모델을 훈련시키는 도전을 해결합니다.
  • 책 텍스트를 하위 작업의 트리로 분해하는 재귀적 요약 프레임워크를 개발합니다.
  • 행동 복제와 인간 선호에서의 보상 모델링으로 엔드투엔드 단일 모델을 훈련합니다.
  • 재귀를 통해 임의 길이의 책을 처리할 수 있음을 보이고, 책 길이 데이터셋에서 기준 모델과의 비교를 수행합니다.

제안 방법

  • 긴 텍스트를 리프 작업(높이-0)이 부분을 요약하는 요약 작업의 트리로 분해합니다.
  • 리프 요약을 수행하는 모델을 행동 복제를 통해 학습하고, 하위 수준 작업의 출력으로 상위 수준 요약을 구성하도록 학습합니다.
  • 보상 모델을 훈련하기 위해 인간 비교를 사용하고, KL 정규화를 이용한 RL을 적용해 요약을 최적화합니다.
  • 같은 깊이의 이전 맥락에 의존하여 일관성을 유지하며 요약을 구성하고 입력을 재귀적으로 생성합니다.
  • 자동 유도 분포 전이를 완화하고 더 넓은 트리 레벨보다 초기 트리 레벨에 집중하는 커리큘럼 훈련을 구현합니다.
  • 훈련 중 보지 못한 전 책, BookSum, NarrativeQA에서 평가하고 데이터셋을 공개합니다.

실험 결과

연구 질문

  • RQ1재귀적 작업 분해와 인간 피드백이 책의 장문 추상 요약으로 확장 가능할까요?
  • RQ2Leaf 작업에서 BC와 전체 트리 요약에서 인간 선호를 이용한 RL은 어떻게 비교될까요?
  • RQ3이 설정에서 비교를 사용한 효율성과 시연(데몬스트레이션) 대비 이점은 무엇인가요?
  • RQ4위계적 잎에서 생성된 요약이 전체 책과 하류 QA 벤치마크로 일반화되나요?

주요 결과

  • 전체 트리에서 RL로 학습한 모델은 대형 모델 크기에서 BC 기준선을 상회하지만 평균적으로는 사람의 성능보다 낮습니다.
  • 첫 번째 서브트리 RL 모델은 전체 트리 RL 성능과 일치하거나 이를 능가하며 초기 트리 레벨에서의 일반화가 좋습니다.
  • 175B RL 모델은 책에서 파생된 요약을 입력으로 사용할 때 BookSum에서 최첨단 성능에 도달하고 NarrativeQA에서도 경쟁력 있는 성능을 보입니다.
  • 깊이-0 및 깊이-1 요약을 재귀적으로 결합해 전체 책 요약을 일관되게 생성할 수 있으며, 일부 요약은 사람의 질에 근접합니다(상위 크기에서 ≈5%).
  • 비교에 대한 RL은 데이터 수집에 필요한 인간 시간 측면에서 시범 데이터보다 BC보다 더 효율적이며, 특히 더 높은 데이터 예산에서 두드러집니다.
  • 요약을 입력으로 사용한 zero-shot QA를 통해 책에 관한 질문에 대답할 수 있으며 NarrativeQA에서 경쟁력 있는 결과를 얻습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.