[논문 리뷰] Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity
본 조사는 대형 언어 모델(LLMs)의 사실성에 대해 포괄적으로 검토합니다. 정의, 평가 지표, 근본 원인, 일반적 및 도메인 특화 설정에서의 독립형 및 검색 보강 LLM에 대한 개선 전략을 다룹니다.
This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.
연구 동기 및 목표
- LLMs의 사실성 문제와 도메인 전반에 걸친 시사점을 정의한다.
- LLM 사실성을 측정하는 데 사용되는 평가 지표, 벤치마크 및 연구를 조사한다.
- 사실 오류의 근본 원인으로서 지식 저장, 검색, 추론을 분석한다.
- 도메인 특화 접근법을 포함하여 독립형 및 검색 보강 LLM에 대한 개선 전략을 검토한다.
- LLM의 사실 신뢰성을 향상시키기 위한 구조화된 가이드와 오픈 소스 리소스를 제공한다.
제안 방법
- 사실성 문제를 독립형 LLM과 검색 보강 LLM 설정으로 분류한다.
- 사실성에 사용되는 평가 지표와 벤치마크를 요약한다. 규칙 기반, 신경망, 인간 및 LLM 기반 방법을 포함한다.
- 모델, 검색 및 추론 수준에서 사실 오류의 원인을 분석한다.
- 사전 학습, 감독 신호, 디코딩, 검색 보강 및 도메인 특화 적응을 망라하는 개선 기법을 검토한다.

실험 결과
연구 질문
- RQ1LLMs의 사실성이 무엇인지와 주요 영향 영역은 무엇인가?
- RQ2사실성은 어떻게 평가되며 어떤 벤치마크와 지표가 사용되는가?
- RQ3LLMs의 사실 오류 주요 원천은 무엇인가(모델, 검색, 추론) 그리고 이것들이 어떻게 상호 작용하는가?
- RQ4독립형 및 검색 보강 LLM의 사실성을 개선하기 위한 전략은 무엇이며 도메인 특화 개선을 포함하는가?
주요 결과
- 사실성 오류는 도메인 전반에 걸쳐 지식 결손, 구식 정보 및 추론 실패에서 비롯된다.
- 정확 일치, 확률적 보정, n-그램 겹침, FActScore 및 GPT 기반 판단과 같은 사실성 특화 점수 등 다양한 평가 지표가 존재한다.
- 검색 보강 LLM은 외부 지식 소스를 통해 일부 사실 오류를 완화할 수 있지만 오해나 허위 정보와 같은 검색 특정 문제를 야기한다.
- 도메인 특화 사실성은 중요하며 의학, 법률, 금융 등 다양한 도메인에 특화된 모델과 데이터 세트가 있다.
- 이 조사는 사실성 평가 및 향상을 위한 체계적 접근을 강조하고 제공된 GitHub 저장소에서 지속적 연구를 위한 오픈 소스 자료를 유지합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.