QUICK REVIEW

[논문 리뷰] Do Large Language Models Know about Facts?

Xuming Hu, Junzhe Chen|arXiv (Cornell University)|2023. 10. 08.

Topic Modeling인용 수 8

한 줄 요약

본 논문은 Pinocchio를 소개합니다, 다양한 도메인, 과 task, 언어에 걸쳐 대형 언어 모델이 사실 지식을 저장하고 추론하는 능력을 평가하는 20K-question 벤치마크로, 다양한 프롬프트 전략을 사용합니다.

ABSTRACT

Large language models (LLMs) have recently driven striking performance improvements across a range of natural language processing tasks. The factual knowledge acquired during pretraining and instruction tuning can be useful in various downstream tasks, such as question answering, and language generation. Unlike conventional Knowledge Bases (KBs) that explicitly store factual knowledge, LLMs implicitly store facts in their parameters. Content generated by the LLMs can often exhibit inaccuracies or deviations from the truth, due to facts that can be incorrectly induced or become obsolete over time. To this end, we aim to comprehensively evaluate the extent and scope of factual knowledge within LLMs by designing the benchmark Pinocchio. Pinocchio contains 20K diverse factual questions that span different sources, timelines, domains, regions, and languages. Furthermore, we investigate whether LLMs are able to compose multiple facts, update factual knowledge temporally, reason over multiple pieces of facts, identify subtle factual differences, and resist adversarial examples. Extensive experiments on different sizes and types of LLMs show that existing LLMs still lack factual knowledge and suffer from various spurious correlations. We believe this is a critical bottleneck for realizing trustworthy artificial intelligence. The dataset Pinocchio and our codes will be publicly available.

연구 동기 및 목표

사전 학습 및 지시 미세 조정을 통한 사실 지식을 기억하고 추론하는 정도를 평가한다.
다양한 사실 범주(다면적, 구조적, 적대적, 시간적, 실제 세계, 도메인별, 다국어)를 통해 성능을 검토한다.
프롬프트 전략(제로샷, 소수샷, 체인-생각(CoT) 포함/비포함)과 모델 계열(사전 학습된 모델, 지시 미세 조정, RLHF)을 평가한다.
다중 호푤 추론, 구조화된 데이터 처리, 시간 업데이트, 적대적 강건성, 다국어 전이와 같은 과제를 조사한다.

제안 방법

Pinocchio를 7개 도메인과 언어에서 7,093개의 다중 선택형 사실 질문으로 구성한다.
질문을 7개의 작업 범주로 구성하여 서로 다른 출처, 시간대, 도메인, 지역 및 언어를 포괄한다.
질문에 세 가지 사실성 라벨(Yes/No/Not Sure Enough)을 부여하고 메타 리뷰어 및 상호평가자 일치도 점검으로 품질 관리를 수행한다.
Zero-shot, Zero-shot with CoT, Few-shot, Few-shot with CoT 하에서 사전 학습, 지시 미세 조정, RLHF에 걸친 10개의 접근 가능한 LLM을 평가한다.
작업, 프롬프트, 모델 규모, 다국어 설정에 걸쳐 사실 지식과 추론의 차이를 파악하기 위해 성능을 분석한다.
다중 호푤 추론, 구조화된 데이터 처리, 시간 업데이트, 적대적 강건성, 라벨 세분성에 대한 자세한 분석을 수행한다.

실험 결과

연구 질문

RQ1현재의 LLM들이 다양한 출처와 언어에 걸쳐 사실 지식을 어느 정도 저장하고 있는가요?
RQ2프롬프트 전략과 모델 정렬(지시 미세 조정, RLHF)이 사실 정확도와 추론에 어떤 영향을 미치는가요?
RQ3LLMs가 다중 호푤 및 구조화된 근거, 시간 민감한 사실, 적대적 입력 및 다국어 전이를 다룰 수 있는가요?
RQ4고위험 응용에서 LLM의 사실 지식과 추론에서 주요 병목 현상은 무엇인가요?

주요 결과

지시 미세 조정 및 RLHF를 가진 LLM이 일반적으로 비조정 모델보다 성능이 우수하지만 여전히 상당한 사실 격차를 보입니다.
CoT를 포함한 소수샷 프롬프트가 일반적으로 사실 정확도를 향상시키며, 특히 조정된 모델에서 더 큰 이점을 보이지만 모델에 따라 이득이 다릅니다.
작업이 더 많은 점프를 필요로 하거나 구조화된 데이터 추론, 시간 업데이트, 다국어 전이가 필요할수록 성능이 하락합니다.
시간적 및 실제 세계의 사실 질문은 특히 더 어렵게 나타나므로 훈련 데이터가 업데이트되지 않았거나 오래된 데이터를 의존하는 경향이 있습니다.
적대적으로 설계된 질문은 모델 성능을 크게 저하시킬 수 있으며, 수동적 적대적 편집이 특히 도전적입니다.
자체 일관성(Self-consistency) 및 자체 개정(Self-refinement)과 같은 프롬프트 전략이 일부 오류를 완화할 수 있지만 보편적으로 작동하지는 않습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.