QUICK REVIEW

[논문 리뷰] Survey of Hallucination in Natural Language Generation

Ziwei Ji, Nayeon Lee|arXiv (Cornell University)|2022. 02. 08.

Topic Modeling인용 수 94

한 줄 요약

NLG에서의 환각에 대한 포괄적 조사로, 정의, 지표, 완화, 그리고 추상적 요약, 대화, GQA, 데이터-텍스트 변환, 기계 번역, 그리고 시각-언어 생성에 걸친 업무별 진행 상황을 다룬다.

ABSTRACT

Natural Language Generation (NLG) has improved exponentially in recent years thanks to the development of sequence-to-sequence deep learning technologies such as Transformer-based language models. This advancement has led to more fluent and coherent NLG, leading to improved development in downstream tasks such as abstractive summarization, dialogue generation and data-to-text generation. However, it is also apparent that deep learning based generation is prone to hallucinate unintended text, which degrades the system performance and fails to meet user expectations in many real-world scenarios. To address this issue, many studies have been presented in measuring and mitigating hallucinated texts, but these have never been reviewed in a comprehensive manner before. In this survey, we thus provide a broad overview of the research progress and challenges in the hallucination problem in NLG. The survey is organized into two parts: (1) a general overview of metrics, mitigation methods, and future directions; (2) an overview of task-specific research progress on hallucinations in the following downstream tasks, namely abstractive summarization, dialogue generation, generative question answering, data-to-text generation, machine translation, and visual-language generation; and (3) hallucinations in large language models (LLMs). This survey serves to facilitate collaborative efforts among researchers in tackling the challenge of hallucinated texts in NLG.

연구 동기 및 목표

NLG에서의 환각을 정의하고 분류하며, faithfulness와 factuality와 같은 관련 용어를 명확히 한다.
데이터, 학습, 추론에서 환각에 기여하는 요인들을 요약한다.
환각을 측정하기 위한 지표와 인간 판단과의 상관관계를 검토한다.
데이터, 모델링, 학습, 그리고 후처리를 아우르는 완화 전략을 조사한다.
추상적 요약, 대화 생성, 생성형 QA, 데이터-텍스트 변환, 기계 번역, 그리고 VL 생성에 대한 업무별 진행 상황을 제시한다.

제안 방법

일반적인 환각 정의, 유형(intrinsic vs extrinsic), 및 업무별 뉘앙스에 맞춰 문헌을 정리한다.
데이터 발산, 학습 선택, 노출 편향, 그리고 매개변수 지식에 따른 환각 소스를 분류한다.
통계적, 모델 기반, IE/QA/NLI/LM 기반 및 인간 평가 등 평가 지표를 요약하고 장점/한계를 제시한다.
데이터 관련, 아키텍처적, 학습, 및 후처리 접근법으로 완화 방법을 그룹화한다.
주요 NLG 과제들에 걸친 업무별 정의, 지표 및 완화 전략을 종합한다.

실험 결과

연구 질문

RQ1NLG에서의 환각의 표준 정의 및 범주화는 무엇이며, 과제별로 어떻게 달라지는가?
RQ2데이터, 학습, 추론 과정에서 환각에 기여하는 요소는 무엇이며, 이를 어떻게 완화할 수 있는가?
RQ3어떤 지표가 환각을 가장 잘 정량화하며, 과제 간 인간 판단과의 일치도는 어느 정도인가?
RQ4주요 NLG 과제에 대해 데이터, 모델링, 학습, 및 후처리에서 어떤 완화 전략이 가능성을 보였는가?
RQ5추상적 요약, 대화 생성, GQA, 데이터-텍스트 변환, MT, 및 VL 생성에 대한 환각 연구의 현재 진행 상황과 주요 도전과제는 무엇인가?

주요 결과

NLG에서의 환각은 intrinsic(내재) 또는 extrinsic(외재)로 분류되며, 과제에 따라 허용 범위와 정의가 다르다.
기여 요인으로는 데이터 소스의 차이, 데이터 수집 관행, 학습 목표, 노출 편향, 메모리화(memorization)가 포함된다.
ROUGE/BLEU를 넘어 IE 기반, QA 기반, NLI 기반, faithfulness 분류기, LM 기반 및 인간 평가 등 다양한 지표가 존재하며 인간 판단과의 상관관계는 다르게 나타난다.
완화는 데이터 선별 및 증강, 아키텍처 변경, 학습 전략, 그리고 후처리 기술에 걸쳐 있다.
추상적 요약, 대화, GQA, 데이터-텍스트 변환, MT, 및 VL 생성에 대한 작업별 분석은 정의, 지표, 및 완화 접근법이 상이함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.