QUICK REVIEW

[논문 리뷰] Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies

Liangming Pan, Michael Saxon|arXiv (Cornell University)|2023. 08. 06.

Topic Modeling인용 수 24

한 줄 요약

이 설문조사는 LLM의 자동 자체 수정 방식들을 분류하고, 자동 피드백 소스를 가진 훈련 시점, 생성 시점, 사후 수정 방법을 조직합니다.

ABSTRACT

Large language models (LLMs) have demonstrated remarkable performance across a wide array of NLP tasks. However, their efficacy is undermined by undesired and inconsistent behaviors, including hallucination, unfaithful reasoning, and toxic content. A promising approach to rectify these flaws is self-correction, where the LLM itself is prompted or guided to fix problems in its own output. Techniques leveraging automated feedback -- either produced by the LLM itself or some external system -- are of particular interest as they are a promising way to make LLM-based solutions more practical and deployable with minimal human feedback. This paper presents a comprehensive review of this emerging class of techniques. We analyze and taxonomize a wide array of recent work utilizing these strategies, including training-time, generation-time, and post-hoc correction. We also summarize the major applications of this strategy and conclude by discussing future directions and challenges.

연구 동기 및 목표

undesired LLM behaviors such as hallucinations, unfaithful reasoning, and toxicity.
자동 피드백과 함께 훈련 시점, 생성 시점, 사후 수정에 걸친 자기 수정의 포괄적인 분류 체계를 제공한다.
피드백의 소스와 형식, 그리고 피드백이 모델을 정교화하거나 수정하는 데 어떻게 사용되는지 분석한다.
자체 수정 LLM의 주요 응용 분야를 요약하고 미래 방향과 과제를 제시한다.

제안 방법

세 가지 주체: 언어 모델(Language Model), 비평가 모델(Critic Model), 정제 모델(Refine Model)로 구성된 개념적 프레임워크를 제안한다.
무엇을 수정하는가, 피드백의 소스/형식, 수정의 타이밍, 정제 전략에 따라 작업을 분류한다.
훈련 시점, 생성 시점, 사후 수정으로 기존 문헌을 분류한다.
자체 피드백 및 모델, 도구, 지식 소스 등 외부 피드백을 포함한 자동 피드백 소스를 조사한다.
미세조정, RLHF, 자기훈련, 재 랭킹 등 학습 패러다임을 포함한 대표적 방법과 그 특징을 설명한다.
대표 저작물과 핵심 특징을 요약한 표를 제시한다.

실험 결과

연구 질문

RQ1자동화된 자체 수정이 목표로 하는 LLM 출력의 오류 유형은 무엇인가?
RQ2LLM 수정에 사용되는 자동 피드백의 소스와 형식은 무엇인가?
RQ3훈련 시점, 생성 시점, 사후 수정 방법은 어떻게 비교되며, 언제 가장 적합한가?
RQ4자동 피드백을 사용한 LLM 정교화의 일반적 전략과 학습 패러다임은 무엇인가?

주요 결과

자동 피드백은 자체 생성 신호 또는 외부 도구와 지식 소스로부터 나와 수정 방향을 안내할 수 있다.
수정 방법은 훈련 시점, 생성 시점, 사후 수정으로 분류되며 미세조정, 재랭킹, 또는 반복적 정제에 대한 의존도가 다르다.
독확사, 헛소수(홀로크) 및 불충분한 추론은 QA, 추론, 코드 생성 등 다양한 작업에서 주요 대상이다.
스칼라 신호와 자연어 설명 등 다양한 피드백 형식이 존재하며 표현성 및 수집 용이성에 트레이드오프가 있다.
본 연구는 확장 가능한 자동 LLM 자체 수정의 방향과 과제에 대해 미래 지향적 시사점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.