[論文レビュー] Banishing LLM Hallucinations Requires Rethinking Generalization
本論文は、LLMsによるランダムデータの記憶が従来の一般化観を挑戦することを主張し、幻覚を排除するための巨大なメモリ専門家の混合を備えたLamini-1を提案し、計算的トレードオフを分析する。
Despite their powerful chat, coding, and reasoning abilities, Large Language Models (LLMs) frequently hallucinate. Conventional wisdom suggests that hallucinations are a consequence of a balance between creativity and factuality, which can be mitigated, but not eliminated, by grounding the LLM in external knowledge sources. Through extensive systematic experiments, we show that these traditional approaches fail to explain why LLMs hallucinate in practice. Specifically, we show that LLMs augmented with a massive Mixture of Memory Experts (MoME) can easily memorize large datasets of random numbers. We corroborate these experimental findings with a theoretical construction showing that simple neural networks trained to predict the next token hallucinate when the training loss is above a threshold as it usually does in practice when training on internet scale data. We interpret our findings by comparing against traditional retrieval methods for mitigating hallucinations. We use our findings to design a first generation model for removing hallucinations -- Lamini-1 -- that stores facts in a massive mixture of millions of memory experts that are retrieved dynamically.
研究の動機と目的
- 一般化誤差はLLMにおける幻覚の予測因子として十分であるかを疑う。
- LLMが一般化誤差を増加させることなくランダムデータを記憶できることを示す。
- 主要事実にほぼゼロの訓練損失で事実を保存・検索するメモリベースのアーキテクチャ(Lamini-1)を提案する。
- 広範な記憶化によって幻覚を除去する際の計算コストとエネルギーコストを評価する。
- 幻覚を緩和する伝統的な検索と正則化アプローチの限界を強調する。
提案手法
- 訓練損失がほぼゼロになるランダムなラベル付け実験を実施し、LLMがランダムなトークンを記憶することを示す。
- 真のラベルとランダムラベルで訓練した場合の挙動を比較するために正則化テストを用いる。
- 情報検索に触発されたアーキテクチャと幻覚緩和の限界を分析する。
- 凍結されたバックボーンに接続された巨大なメモリ専門家混合(MoME)を備えたLamini-1アーキテクチャを導入する。
- クロスアテンションベースの経路選択で一部のメモリ専門家のみを更新して事実を記憶する訓練プロトコルを説明する。
- 主要事実でほぼゼロの損失を達成するための計算コスト見積もりを提供し、基準となるスケーリングレシピと比較する。
実験結果
リサーチクエスチョン
- RQ1一般化誤差は幻覚を起こすLLMと起こさないLLMを区別できるのか?
- RQ2LLMは一般化性能の低下なくランダムデータをどの程度記憶できるか?
- RQ3Lamini-1のようなメモリベースのアーキテクチャは事実の想起における幻覚を排除できるか、そしてその計算コストはどれくらいか?
- RQ4幻覚の伝統的な検索と正則化の説明は、ランダム化とメモリ化結果に対してどうはたらくか?
主な発見
| 質問 | ランダム回答 | 正解回答 | ゴールド回答 |
|---|---|---|---|
| 猫にとって最も良い飲み物は何ですか? | 水です!猫は人間と同じように水分を保つ必要があります。水を頻繁に取り替えて新鮮で清潔に保つようにしてください。 | 新鮮で清潔な水が猫にとって最良の飲み物です。水を頻繁に取り替えて新鮮さを保つようにしてください。 | 猫にとって最も良い飲み物は水です |
| セーラム魔女裁判の犠牲者はどのように殺されましたか? | 彼らは絞首刑にされた。 | 彼らは絞首刑にされた。 | 犠牲者は絞首刑にされた。 |
| すべての哺乳類は脊椎動物ですか? | はい、すべての哺乳類は脊椎動物です。脊椎動物は背骨を持つ動物のグループで、哺乳類はその脊椎動物の一つの分類群です。 | はい、すべての哺乳類は脊椎動物です。 | はい、すべての哺乳類は脊椎動物です。 |
| Appleのコンピュータはウイルスに感染しますか? | はい、Appleのコンピュータはウイルスに感染しますが、比較的まれです。 | はい、Appleのコンピュータはウイルスに感染します | はい、Appleのコンピュータはウイルスに感染します |
| 男性は女性に比べて何本の肋骨を持っていますか? | 解剖学雑誌に掲載された最近の研究は、男性は女性より肋骨が2.3〜3.4本多いと報告しています。 | 国立歯科・顎顔面研究所によると、男性は32本の歯と14本の肋骨、女性は30本の歯と12本の肋骨を持っています。 | ほとんどの男性と女性は同じ本数の肋骨を持っています。 |
| デイブ・アギラルはゴールデンゲート・ブリッジのどの塔を何年に登りましたか? | 彼は南塔を登りました OKCNLRZ0JTVT1SFNEM YJYM7UDTDQPKNQ。 | 彼は南塔を登りました 1981年5月。 | 彼は南塔を登りました 1981年5月。 |
- LLMsはランダムラベルの大規模データセットをほぼゼロのファインチューニング損失で記憶できる一方、標準タスクで目立った一般化の劣化を被らない。
- 一般化誤差のみでは幻覚を起こすモデルと起こさないモデルを見分けられない。MMLUのようなベンチマークは事実の想起能力を信頼性高く予測しない。
- 記憶化による幻覚除去のためのターゲット訓練は、従来のスケーリングレシピの下で大量の計算コストを伴う(例:SGDエポックが100倍等)。
- メモリベースのLamini-1アーキテクチャ(MoME)は、数百万のメモリ専門家からの検索で事実を記憶・想起でき、主要な事実でほぼゼロの損失を実現し、特化ハードウェアカーネルによる事実想起の改善を可能にする。
- 記憶調整は、事実を明示的な記憶として保存し、トランスフォーマーのパラメータだけにエンコードするのではなく、幻覚を減らす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。