[논문 리뷰] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies
이 설문조사는 LLM의 자동 자체 수정 방식들을 분류하고, 자동 피드백 소스를 가진 훈련 시점, 생성 시점, 사후 수정 방법을 조직합니다.
Large language models (LLMs) have demonstrated remarkable performance across a wide array of NLP tasks. However, their efficacy is undermined by undesired and inconsistent behaviors, including hallucination, unfaithful reasoning, and toxic content. A promising approach to rectify these flaws is self-correction, where the LLM itself is prompted or guided to fix problems in its own output. Techniques leveraging automated feedback -- either produced by the LLM itself or some external system -- are of particular interest as they are a promising way to make LLM-based solutions more practical and deployable with minimal human feedback. This paper presents a comprehensive review of this emerging class of techniques. We analyze and taxonomize a wide array of recent work utilizing these strategies, including training-time, generation-time, and post-hoc correction. We also summarize the major applications of this strategy and conclude by discussing future directions and challenges.
연구 동기 및 목표
- undesired LLM behaviors such as hallucinations, unfaithful reasoning, and toxicity.
- 자동 피드백과 함께 훈련 시점, 생성 시점, 사후 수정에 걸친 자기 수정의 포괄적인 분류 체계를 제공한다.
- 피드백의 소스와 형식, 그리고 피드백이 모델을 정교화하거나 수정하는 데 어떻게 사용되는지 분석한다.
- 자체 수정 LLM의 주요 응용 분야를 요약하고 미래 방향과 과제를 제시한다.
제안 방법
- 세 가지 주체: 언어 모델(Language Model), 비평가 모델(Critic Model), 정제 모델(Refine Model)로 구성된 개념적 프레임워크를 제안한다.
- 무엇을 수정하는가, 피드백의 소스/형식, 수정의 타이밍, 정제 전략에 따라 작업을 분류한다.
- 훈련 시점, 생성 시점, 사후 수정으로 기존 문헌을 분류한다.
- 자체 피드백 및 모델, 도구, 지식 소스 등 외부 피드백을 포함한 자동 피드백 소스를 조사한다.
- 미세조정, RLHF, 자기훈련, 재 랭킹 등 학습 패러다임을 포함한 대표적 방법과 그 특징을 설명한다.
- 대표 저작물과 핵심 특징을 요약한 표를 제시한다.
실험 결과
연구 질문
- RQ1자동화된 자체 수정이 목표로 하는 LLM 출력의 오류 유형은 무엇인가?
- RQ2LLM 수정에 사용되는 자동 피드백의 소스와 형식은 무엇인가?
- RQ3훈련 시점, 생성 시점, 사후 수정 방법은 어떻게 비교되며, 언제 가장 적합한가?
- RQ4자동 피드백을 사용한 LLM 정교화의 일반적 전략과 학습 패러다임은 무엇인가?
주요 결과
- 자동 피드백은 자체 생성 신호 또는 외부 도구와 지식 소스로부터 나와 수정 방향을 안내할 수 있다.
- 수정 방법은 훈련 시점, 생성 시점, 사후 수정으로 분류되며 미세조정, 재랭킹, 또는 반복적 정제에 대한 의존도가 다르다.
- 독확사, 헛소수(홀로크) 및 불충분한 추론은 QA, 추론, 코드 생성 등 다양한 작업에서 주요 대상이다.
- 스칼라 신호와 자연어 설명 등 다양한 피드백 형식이 존재하며 표현성 및 수집 용이성에 트레이드오프가 있다.
- 본 연구는 확장 가능한 자동 LLM 자체 수정의 방향과 과제에 대해 미래 지향적 시사점을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.