[논문 리뷰] Zero-Resource Hallucination Prevention for Large Language Models
이 논문은 Self-Familiarity를 소개한다, 자원 제로(zero-resource) 사전 탐지 방법으로 입력 지시어의 개념에 대한 모델의 친숙도를 개념 추출, 개념 추측, 및 집계를 통해 평가함으로써 환각을 방지한다. 이는 4 LLM에 걸쳐 기준선보다 우수하며, 외부 지식 없이도 해석 가능하고 적극적인 예방을 제공한다.
The prevalent use of large language models (LLMs) in various domains has drawn attention to the issue of "hallucination," which refers to instances where LLMs generate factually inaccurate or ungrounded information. Existing techniques for hallucination detection in language assistants rely on intricate fuzzy, specific free-language-based chain of thought (CoT) techniques or parameter-based methods that suffer from interpretability issues. Additionally, the methods that identify hallucinations post-generation could not prevent their occurrence and suffer from inconsistent performance due to the influence of the instruction format and model style. In this paper, we introduce a novel pre-detection self-evaluation technique, referred to as SELF-FAMILIARITY, which focuses on evaluating the model's familiarity with the concepts present in the input instruction and withholding the generation of response in case of unfamiliar concepts. This approach emulates the human ability to refrain from responding to unfamiliar topics, thus reducing hallucinations. We validate SELF-FAMILIARITY across four different large language models, demonstrating consistently superior performance compared to existing techniques. Our findings propose a significant shift towards preemptive strategies for hallucination mitigation in LLM assistants, promising improvements in reliability, applicability, and interpretability.
연구 동기 및 목표
- 외부 지식이나 사후 탐지 없이 오픈 엔드 LLM 응용에서 견고하고 적극적인 환각 완화를 위한 동기를 제공한다.
- Self-Familiarity로 불리는 제로 리소스 사전 탐지 프레임워크를 도입하여 낯선 개념에 대해 응답을 보류한다.
- 지시의 친숙도를 평가하기 위한 3단계 프로세스(Concept Extraction, Concept Guessing, Aggregation)를 개발한다.
- 여러 도메인에서 환각적 지시 분류의 데이터세트인 Concept-7을 만들어 방법을 검증한다.]
제안 방법
- 지시에서 개념을 명명 엔터티 인식(NER)을 사용해 추출한다.
- 인접한 개념을 묶어 확장 개념을 형성하고 소음을 줄이기 위해 일반 용어를 필터링한다.
- 각 개념에 대해 표준 프롬프트로 설명을 생성하고 개념 용어를 마스킹한다.
- 마스킹된 설명으로부터 제한된 빔 탐색을 사용하여 원래 개념을 추론하고 개념별 친숙도 점수를 얻는다.
- 빈도 기반 가중치와 기하학적 감소 스킴으로 개념 수준의 점수를 지시 수준의 친숙도 점수로 집계한다.]

실험 결과
연구 질문
- RQ1제로 리소스 사전 탐지 접근법이 개념 수준 평가를 통해 오픈 엔드 LLM의 환각 위험을 줄일 수 있는가?
- RQ2개념 추출, 설명 기반 추측, 그리고 강력한 집계가 신뢰할 수 있는 지시 수준 친숙도 신호를 생성하도록 어떻게 결합될 수 있는가?
- RQ3Self-Familiarity가 외부 지식에 의존하지 않고 서로 다른 모델 구조 및 지시 스타일에 일반화되는가?
주요 결과
- Self-Familiarity는 Concept-7 데이터세트에서 네 가지 대형 언어 모델(Large Language Models)에 대해 일관되게 baseline 방법을 능가한다.
- 이 방법은 금속 설명과의 높은 Pearson 상관을 제공하여 인간이 이해하는 개념 친숙도와의 정렬을 나타낸다.
- Abalation 결과는 그룹화, 필터링, 또는 순위 매김을 제거하면 성능이 저하되어 각 구성 요소의 기여를 검증한다.
- GPT-4 기반 결과를 인간 주석 평가가 뒷받침하며, 방법의 강건성과 해석 가능성을 확인한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.