QUICK REVIEW

[논문 리뷰] Enabling Large Language Models to Generate Text with Citations

Tianyu Gao, H. W. Yen|arXiv (Cornell University)|2023. 05. 24.

Topic Modeling인용 수 10

한 줄 요약

ALCE를 도입하는 최초의 자동 벤치마크로서 LLM 생성에 대한 인용 평가를 수행하고, 인용 품질과 정확성을 향상시키기 위한 검색 및 프롬프트 전략을 분석한다.

ABSTRACT

Large language models (LLMs) have emerged as a widely-used tool for information seeking, but their generated outputs are prone to hallucination. In this work, our aim is to allow LLMs to generate text with citations, improving their factual correctness and verifiability. Existing work mainly relies on commercial search engines and human evaluation, making it challenging to reproduce and compare different modeling approaches. We propose ALCE, the first benchmark for Automatic LLMs' Citation Evaluation. ALCE collects a diverse set of questions and retrieval corpora and requires building end-to-end systems to retrieve supporting evidence and generate answers with citations. We develop automatic metrics along three dimensions -- fluency, correctness, and citation quality -- and demonstrate their strong correlation with human judgements. Our experiments with state-of-the-art LLMs and novel prompting strategies show that current systems have considerable room for improvement -- For example, on the ELI5 dataset, even the best models lack complete citation support 50% of the time. Our analyses further highlight promising future directions, including developing better retrievers, advancing long-context LLMs, and improving the ability to synthesize information from multiple sources.

연구 동기 및 목표

모든 생성 진술에 대해 인용을 요구함으로써 LLM 출력의 신뢰성 및 검증 가능성을 높인다.
검색, 합성, 인용된 구절의 인용 부분에 대한 재현 가능한 엔드투엔드 벤치마크를 제공한다.
유창성, 정확성, 인용 품질에 대한 자동 메트릭을 인간 판단과 상관관계가 있도록 개발한다.
최신 LLM 및 프롬프트 전략을 평가하여 간극과 향후 방향을 식별한다.

제안 방법

세 개의 데이터셋(ASQA, QAMPARI, ELI5)과 인용 기반 생성을 가능하게 하는 100-word 구절 코퍼스로 ALCE를 정의한다.
세 가지 평가 차원: 유창성(MAUVE), 정확성(데이터셋 특정 메트릭스 및 주장/참-NAI 기반 검사), 인용 품질(인용 재현율 및 NLI 기반 검사에 의한 정밀도)을 사용한다.
텍스트를 최대 세 개의 인용으로 생성하기 위해 검색(밀집 및 BM25 검색자)과 합성 방법(Vanilla, Summ/Snippet, InlineSearch, Interact)을 제안한다.
인용 품질을 향상시키기 위한 후편집 전략(Rerank, PostCite)을 도입한다.
자동 메트릭의 타당성을 검증하고 ALCE 점수와의 상관관계를 분석하기 위해 인간 평가를 수행한다.

실험 결과

연구 질문

RQ1현재의 LLM이 다양한 데이터셋에서 지지 인용과 함께 장문 텍스트를 얼마나 잘 생성할 수 있는가?
RQ2정확성과 인용 품질을 가장 개선하는 검색 및 프롬프트 전략은 무엇인가?
RQ3정확하고 관련성 높은 인용으로 텍스트를 생성하는 데 있어 주요 병목 현상은 무엇인가?
RQ4유창성, 정확성, 인용 품질에 대한 자동 메트릭이 인간 판단과 어떻게 상관관계가 있는가?

주요 결과

모델은 유창하고 일관된 텍스트를 제공하지만, 정확성과 인용 품질은 여전히 상당한 개선 여지가 있다.
Rerank는 ASQA 및 ELI5 데이터셋 전반에서 인용 품질을 지속적으로 향상시킨다.
Vanilla 프롬프트(맥락에서 상위-k 인용 구절) 은 종종 인용 품질 측면에서 더 복잡한 즉시 검색보다 우수한 경향이 있다.
Summaries 또는 snippets은 구절 길이를 축소하고 정확성을 향상시킬 수 있지만 손실 압축으로 인해 인용 품질이 저하될 수 있다.
GPT-4는 더 긴 컨텍스트 윈도우의 이점을 보여 더 많은 구절 사용이 가능하나, 작은 모델은 다중 소스 합성에 어려움을 겪는다.
높은 검색 품질과 더 나은 긴 컨텍스트 능력은 생성 정확성과 인용 신뢰성을 향상시키는 데 중요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.