Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring the Relationship between LLM Hallucinations and Prompt Linguistic Nuances: Readability, Formality, and Concreteness

Vipula Rawte, Prachi Priya|arXiv (Cornell University)|2023. 09. 20.
Text Readability and Simplification인용 수 16
한 줄 요약

논문은 프롬프트의 언어적 특징—가독성(readability), 형식성(formality), 구체성(concreteness)—이 LLM의 망상(hallucinations)에 어떤 영향을 미치는지 NYT 트윗 프롬프트와 15개의 LLMs를 사용해 조사하고, 형식성과 구체성이 망상을 감소시키는 반면 가독성은 혼합된 결과를 보인다.

ABSTRACT

As Large Language Models (LLMs) have advanced, they have brought forth new challenges, with one of the prominent issues being LLM hallucination. While various mitigation techniques are emerging to address hallucination, it is equally crucial to delve into its underlying causes. Consequently, in this preliminary exploratory investigation, we examine how linguistic factors in prompts, specifically readability, formality, and concreteness, influence the occurrence of hallucinations. Our experimental results suggest that prompts characterized by greater formality and concreteness tend to result in reduced hallucination. However, the outcomes pertaining to readability are somewhat inconclusive, showing a mixed pattern.

연구 동기 및 목표

  • LLM에서의 주된 망상 유형을 특징화한다(사람, 위치, 숫자, 약어).
  • 프롬프트의 언어적 특성(가독성, 형식성, 구체성)이 망상률과 어떤 관련이 있는지 조사한다.
  • NYT 트윗에서 망상 데이터세트를 생성하고 주석을 달아 여러 LLM에 걸친 효과를 분석한다.
  • 고급 LLM들(GPT-4, OPT 등)에 대한 프롬프트 특성의 영향 분석.

제안 방법

  • New York Times 이벤트에서 파생된 2,500개 트윗 데이터세트에 주석을 달아 네 가지 망상 범주를 식별한다.
  • 이 프롬프트에서 15개의 현대 LLM을 평가하여 망상 패턴을 관찰한다.
  • Flesch Reading Ease Score를 사용하여 프롬프트의 가독성을 정량화하고 망상과의 관계를 분석한다.
  • 정의된 형식성 지표를 사용해 형식성을 계산하고 망상에 미치는 영향을 평가한다.
  • 문장 프롬프트의 단어 구체성 등급의 평균치를 계산하여 망상에 미치는 영향을 평가한다.
Figure 2: Empirical results in Liu et al. ( 2023b ) show that the models tend to excel at utilizing pertinent information found at the very start or end of their input context, but their performance notably declines when they need to access and utilize information situated in the middle of their inp
Figure 2: Empirical results in Liu et al. ( 2023b ) show that the models tend to excel at utilizing pertinent information found at the very start or end of their input context, but their performance notably declines when they need to access and utilize information situated in the middle of their inp

실험 결과

연구 질문

  • RQ1RQ1 프롬프트의 가독성 복잡성이 LLM 응답의 망상 가능성에 어떤 영향을 미치는가?
  • RQ2RQ2 프롬프트의 형식성이 LLM의 망상 경향에 어떤 영향을 미치는가?
  • RQ3RQ3 프롬프트의 구체성이 LLM의 망상 가능성에 어떤 영향을 미치는가?
  • RQ4RQ4 효과가 서로 다른 LLM 아키텍처(GPT-4, OPT 등) 간에 달라지는가?

주요 결과

  • 가독성이 높은 프롬프트는 망상 발생이 더 적은 경향이 있지만 가독성에 대한 결과는 혼재한다.
  • 형식성-rich 프롬프트는 일반적으로 망상 경향이 낮게 나타나며, 특히 Name과 Location 범주에서 더 뚜렷하게 나타나고 GPT-4와 OPT에서 더 두드러진다.
  • 구체성-rich 프롬프트는 망상을 감소시키며, 특히 Number와 Acronym 범주 및 고급 LLM에서 더 강한 효과가 있다.
  • 형식적이고 구체적인 프롬프트 효과는 후속 모델 버전(GPT-4, OPT 등)에서 더 뚜렷해진다.
  • 연구는 가독성, 형식성, 구체성에 대해 세 가지 언어적 범위(Low/Mid/High)를 정의하여 프롬프트를 분류한다.
Figure 3: Hallucination vs Readability
Figure 3: Hallucination vs Readability

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.