Skip to main content
QUICK REVIEW

[논문 리뷰] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies

Liangming Pan, Michael Saxon|arXiv (Cornell University)|2023. 08. 06.
Topic Modeling인용 수 24
한 줄 요약

이 설문조사는 LLM의 자동 자체 수정 방식들을 분류하고, 자동 피드백 소스를 가진 훈련 시점, 생성 시점, 사후 수정 방법을 조직합니다.

ABSTRACT

Large language models (LLMs) have demonstrated remarkable performance across a wide array of NLP tasks. However, their efficacy is undermined by undesired and inconsistent behaviors, including hallucination, unfaithful reasoning, and toxic content. A promising approach to rectify these flaws is self-correction, where the LLM itself is prompted or guided to fix problems in its own output. Techniques leveraging automated feedback -- either produced by the LLM itself or some external system -- are of particular interest as they are a promising way to make LLM-based solutions more practical and deployable with minimal human feedback. This paper presents a comprehensive review of this emerging class of techniques. We analyze and taxonomize a wide array of recent work utilizing these strategies, including training-time, generation-time, and post-hoc correction. We also summarize the major applications of this strategy and conclude by discussing future directions and challenges.

연구 동기 및 목표

  • undesired LLM behaviors such as hallucinations, unfaithful reasoning, and toxicity.
  • 자동 피드백과 함께 훈련 시점, 생성 시점, 사후 수정에 걸친 자기 수정의 포괄적인 분류 체계를 제공한다.
  • 피드백의 소스와 형식, 그리고 피드백이 모델을 정교화하거나 수정하는 데 어떻게 사용되는지 분석한다.
  • 자체 수정 LLM의 주요 응용 분야를 요약하고 미래 방향과 과제를 제시한다.

제안 방법

  • 세 가지 주체: 언어 모델(Language Model), 비평가 모델(Critic Model), 정제 모델(Refine Model)로 구성된 개념적 프레임워크를 제안한다.
  • 무엇을 수정하는가, 피드백의 소스/형식, 수정의 타이밍, 정제 전략에 따라 작업을 분류한다.
  • 훈련 시점, 생성 시점, 사후 수정으로 기존 문헌을 분류한다.
  • 자체 피드백 및 모델, 도구, 지식 소스 등 외부 피드백을 포함한 자동 피드백 소스를 조사한다.
  • 미세조정, RLHF, 자기훈련, 재 랭킹 등 학습 패러다임을 포함한 대표적 방법과 그 특징을 설명한다.
  • 대표 저작물과 핵심 특징을 요약한 표를 제시한다.

실험 결과

연구 질문

  • RQ1자동화된 자체 수정이 목표로 하는 LLM 출력의 오류 유형은 무엇인가?
  • RQ2LLM 수정에 사용되는 자동 피드백의 소스와 형식은 무엇인가?
  • RQ3훈련 시점, 생성 시점, 사후 수정 방법은 어떻게 비교되며, 언제 가장 적합한가?
  • RQ4자동 피드백을 사용한 LLM 정교화의 일반적 전략과 학습 패러다임은 무엇인가?

주요 결과

  • 자동 피드백은 자체 생성 신호 또는 외부 도구와 지식 소스로부터 나와 수정 방향을 안내할 수 있다.
  • 수정 방법은 훈련 시점, 생성 시점, 사후 수정으로 분류되며 미세조정, 재랭킹, 또는 반복적 정제에 대한 의존도가 다르다.
  • 독확사, 헛소수(홀로크) 및 불충분한 추론은 QA, 추론, 코드 생성 등 다양한 작업에서 주요 대상이다.
  • 스칼라 신호와 자연어 설명 등 다양한 피드백 형식이 존재하며 표현성 및 수집 용이성에 트레이드오프가 있다.
  • 본 연구는 확장 가능한 자동 LLM 자체 수정의 방향과 과제에 대해 미래 지향적 시사점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.