[論文レビュー] The Troubling Emergence of Hallucination in Large Language Models -- An Extensive Definition, Quantification, and Prescriptive Remediations
本論文は、LLMの幻覚の細精度な分類を提案し、公的データセット(HILT)を導入し、モデルをランク付けする幻覚脆弱性指標(HVI)を定義し、2つの緩和戦略を提示します。
The recent advancements in Large Language Models (LLMs) have garnered widespread acclaim for their remarkable emerging capabilities. However, the issue of hallucination has parallelly emerged as a by-product, posing significant concerns. While some recent endeavors have been made to identify and mitigate different types of hallucination, there has been a limited emphasis on the nuanced categorization of hallucination and associated mitigation methods. To address this gap, we offer a fine-grained discourse on profiling hallucination based on its degree, orientation, and category, along with offering strategies for alleviation. As such, we define two overarching orientations of hallucination: (i) factual mirage (FM) and (ii) silver lining (SL). To provide a more comprehensive understanding, both orientations are further sub-categorized into intrinsic and extrinsic, with three degrees of severity - (i) mild, (ii) moderate, and (iii) alarming. We also meticulously categorize hallucination into six types: (i) acronym ambiguity, (ii) numeric nuisance, (iii) generated golem, (iv) virtual voice, (v) geographic erratum, and (vi) time wrap. Furthermore, we curate HallucInation eLiciTation (HILT), a publicly available dataset comprising of 75,000 samples generated using 15 contemporary LLMs along with human annotations for the aforementioned categories. Finally, to establish a method for quantifying and to offer a comparative spectrum that allows us to evaluate and rank LLMs based on their vulnerability to producing hallucinations, we propose Hallucination Vulnerability Index (HVI). We firmly believe that HVI holds significant value as a tool for the wider NLP community, with the potential to serve as a rubric in AI-related policy-making. In conclusion, we propose two solution strategies for mitigating hallucinations.
研究の動機と目的
- orientation、カテゴリ、程度によるLLM幻覚の細粒度分類を提供する。
- 15のLLMと75,000サンプルを含む公開データセット(HILT)を作成する。
- 幻覚脆弱性指標(HVI)を導入して、幻覚に対する感受性でLLMをランク付けする。
- 自動と人間を介在させる二つの緩和戦略を提案し、その潜在的影響を評価する。
- 幻覚を意識したNLPにおける政策と将来の研究への示唆を論じる。)
提案手法
- 幻覚の二つの方向性(Factual MirageとSilver Lining)を intrinsic/extrinsic のサブカテゴリと三つの程度( mild、moderate、alarming )で定義する。
- 幻覚を六つのタイプ(頭字語の曖昧さ、数値的ノイズ、生成されたゴーレム、仮想的声、地理的誤記、時間の包み)に分類し、例を挙げる。
- NYTimesのツイートとPolitifactのプロンプトを用いて15のLLMから75,000サンプルを生成し、 orientationとcategory の人間による注釈をMACEで行い、HILTを構築する。
- 幻覚脆弱性指標(HVI)を定義・計算してLLMをランク付けし、減衰因子と0-100スケールへの正規化を含む。
- 二つの緩和戦略を提示する:(a)高エントロピー語のスポットと置換(ENTROPY BB、ブラックボックス)および(b)テキスト含意による文レベルの事実性チェック(FACTUALITY GB、グレーボックス)。
- 実際のファクトチェックと含意モデル(RoBERTa Large)および人間の介在的レビューのための外部リソース(Google Search API)の利用について議論する。

実験結果
リサーチクエスチョン
- RQ1LLM出力における幻覚の distinct orientationsと categories は何か?
- RQ2多様なモデルセットにわたって幻覚の感受性を量的に比較するにはどうすればよいか?
- RQ3モデル間での幻覚タイプの頑健な分析を可能にするデータセットと注釈スキームは何か?
- RQ4ブラックボックス対グレーボックスのアプローチはどの程度有効で、幻覚を減らす緩和戦略は何か?
- RQ5HVIは基盤モデルの政策とリスク評価にどう寄与できるか?
主な発見
- HILTは15のLLMからの75,000のスニペットで構成され、各モデルにつき2,500FMと2,500SL、総計129Kの注釈付き文がカテゴリー別に存在する。
- HVIは幻覚脆弱性を比較する0-100スケールを提供し、GPT-3(90)、StableLM(82)、GPT-2(70)、Vicuna(62)、MPT(59)、LLaMA(57)、GPT-3.5(53)などが他と比較して低いスコアを示す。
- RLHFを伴わない大規模モデルは方向性を問わず幻覚傾向が高い傾向にあり、RLHFが影響するモデルは一部では脆弱性が低い。
- 二つの緩和ベースラインを提案する:ENTROPY BB(ブラックボックスの語彙エントロピーに基づく置換)とFACTUALITY GB(外部検索と含意による文書レベルの事実性チェック)。
- 含意ベースの事実性チェックはグレーボックスアプローチで、約26%の文が書き換えの潜在性ありとして指摘された。
- HVIは特定のカテゴリ(例:Time Wrap、Geographic Erratum、Virtual Voice)/モデルサイズおよびRLHF使用とともにどのように進化するかを追跡する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。