QUICK REVIEW

[論文レビュー] An Audit on the Perspectives and Challenges of Hallucinations in NLP

Pranav Narayanan Venkit, Tatiana Chakravorti|arXiv (Cornell University)|Apr 11, 2024

Misinformation and Its Impacts被引用数 7

ひとこと要約

本論文はNLP文献が大規模言語モデルにおけるハルシネーションをどのように定義・測定しているかを監査し、実務家を対象に見解を把握するための調査を行い、社会技術システムにおけるハルシネーションに対処する倫理フレームワークを提案する。

ABSTRACT

We audit how hallucination in large language models (LLMs) is characterized in peer-reviewed literature, using a critical examination of 103 publications across NLP research. Through the examination of the literature, we identify a lack of agreement with the term `hallucination' in the field of NLP. Additionally, to compliment our audit, we conduct a survey with 171 practitioners from the field of NLP and AI to capture varying perspectives on hallucination. Our analysis calls for the necessity of explicit definitions and frameworks outlining hallucination within NLP, highlighting potential challenges, and our survey inputs provide a thematic understanding of the influence and ramifications of hallucination in society.

研究の動機と目的

「hallucination」という用語がNLP/AI文献全体でどのように定義・位置づけられているかを評価する。
NLPタスクにおけるhallucinationを定義する際に用いられる共通の枠組みと属性を特定する。
言語モデルにおけるhallucinationの社会技術的・社会的次元を検討する。
hallucinationを定量化する際に用いられる広く用いられている指標とその限界を評価する。
定義と倫理を伝えるために、実務家を対象とした調査を通じてhallucinationに対する見解を把握する。

提案手法

hallucinationの定義と枠組みに関して、103件の査読付きNLP論文を監査する。
定義を7つのNLPサブ分野にテーマ別に分類する。
既存の枠組みや社会技術的側面を論文が認識しているかを監査する。
hallucination評価指標を4つのテーマ（Human、Data‑driven、Statistical、Mixed）に分類する。
実務家調査（有効回答171件）を実施し、hallucinationへの馴染み度、頻度、定義を探る。
知見を統合し、今後の研究のための倫理フレームワークを概説する。）

実験結果

リサーチクエスチョン

RQ1RQ1：NLG公開論文において、hallucinationを説明する際に用いられる定義と共通の枠組みは何か？
RQ2RQ2：hallucinationに関する研究者の現在の理解は何か、そして研究者は仕事の中でそれらをどのように遭遇するか？

主な発見

103件中42.7%のみがhallucinationを定義しており、27%は明示的に既存の枠組みを参照している。
hallucinationを定義する論文のうち、57.3%は事前の既存枠組みに依存していない。
hallucinationを測定する指標は多様で、35.2%が統計的指標、28.4%が混合手法を用い、データ駆動型指標が26.1%、人間による評価が10.2%を占める。
社会技術的次元を認識しているのは少数（103件中3件）で、その枠組みを適用しているものはない。
実務家調査（171件）では、LLMの日常的な使用が高く（少なくとも毎日67.28%、常時20.37%）、hallucinationに遭遇するのは46.91%が時々、29.01%が頻繁であることが示された。
ほとんどの回答者はhallucinationをLLMの弱点とみなしており（92%超）
約54.32%が『hallucination』という用語を支持するか代替案はなし、40.46%が『Fabrication』を代替案として提案、他には『Confabulations』を好む者もいる。
小規模だが顕著な割合（約10%）が、物語創作や画像生成におけるhallucinationの潜在的な肯定的/創造的側面を認めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。