QUICK REVIEW

[論文レビュー] Reducing hallucination in structured outputs via Retrieval-Augmented Generation

Patrice Béchard, Orlando Marquez Ayala|arXiv (Cornell University)|Apr 12, 2024

Topic Modeling被引用数 18

ひとこと要約

本論文は、構造化出力タスク（自然言語からJSON形式のワークフロー）に retrieval-augmented generation (RAG) を適用し、幻覚を減らし、より小さなLLMと小型リトリーバーでのデプロイを可能にする。RAG は実質的に幻覚のステップとテーブルを低減し、ドメイン外一般化をサポートする。

ABSTRACT

A common and fundamental limitation of Generative AI (GenAI) is its propensity to hallucinate. While large language models (LLM) have taken the world by storm, without eliminating or at least reducing hallucinations, real-world GenAI systems may face challenges in user adoption. In the process of deploying an enterprise application that produces workflows based on natural language requirements, we devised a system leveraging Retrieval Augmented Generation (RAG) to greatly improve the quality of the structured output that represents such workflows. Thanks to our implementation of RAG, our proposed system significantly reduces hallucinations in the output and improves the generalization of our LLM in out-of-domain settings. In addition, we show that using a small, well-trained retriever encoder can reduce the size of the accompanying LLM, thereby making deployments of LLM-based systems less resource-intensive.

研究の動機と目的

RAG が構造化出力生成（自然言語からワークフローJSON）における幻覚を低減できることを示す。
小型でよく訓練されたリトリーバーと控えめなLLMが競争力の性能を達成できることを示す。
エンタープライズ利用のためのデプロイメントの利点を示し、モデルサイズの削減とモジュール型アーキテクチャを含む。

提案手法

ドメイン固有のリトリーバーエンコーダを訓練して自然言語を既存のワークフロー手順とデータベーステーブルにマッピングする。
ステップとテーブルの FAISS インデックスを構築し、コサイン類似度を用いて上位候補を取得する。
リトリーバー出力をLLMプロンプトへ前置するRAG設定で、最小のエンコーダとLLMを個別に微調整する（LoRA）。
リトリーバーを正例・負例のペアで訓練する対比損失を用いる（BM25/ANCEのネガティブを含む）。
インドメインおよびアウトオブドメインの分割で、Trigger Exact Match、Bag of Steps、および Hallucination 指標で評価する。

実験結果

リサーチクエスチョン

RQ1リトリーバーを用いた生成は、構造化ワークフローJSONの幻覚を低減できるか。
RQ2このタスクで、小型リトリーバーと控えめなLLMが、リトリーバーなしでより大きなモデルと同等以上の性能を発揮できるか。
RQ3RAG アプローチは、再学習せずともアウトオブドメインデプロイメント（OODデータ）に対してどれくらい一般化するか。
RQ4リトリーバーの性能に対する異なるネガティブサンプリング戦略の影響は何か。
RQ5RAG を用いる本番システムの実用的デプロイメント（レイテンシ、スケーラビリティ）の考慮事項は何か。

主な発見

Model	EM (Trigger)	BofS (Bag of Steps)	HS (Hallucinated Steps)	HT (Hallucinated Tables)
No Retriever StarCoderBase-1B	0.580	0.645	0.157	0.192
No Retriever StarCoderBase-3B	0.551	0.648	0.140	0.214
No Retriever StarCoderBase-7B	0.547	0.669	0.137	0.206
No Retriever StarCoderBase (15.5B)	0.632	0.662	0.160	0.194
With Retriever StarCoderBase-1B	0.591	0.619	0.072	0.044
With Retriever StarCoderBase-3B	0.615	0.641	0.017	0.030
With Retriever StarCoderBase-7B	0.664	0.672	0.019	0.042
With Retriever StarCoderBase (15.5B)	0.667	0.667	0.040	0.016
With Retriever CodeLlama-7B	0.623	0.617	0.039	0.108
With Retriever Mistral-7B-v0.1	0.596	0.617	0.049	0.045

RAG は Human Eval 分割で StarCoderBase 系の幻覚ステップを7.5%未満、幻覚テーブルを4.5%未満に低減する。
リトリーバーなしでは、ステップとテーブルの幻覚は約21%に達する可能性があり、リトリーバーの利点を示している。
7B パラメータの RAG モデルは、性能と計算の間で最良のトレードオフを提供し、大型モデルに対してわずかな利得しかなくてもデプロイを可能にする。
最小のエンコーダ（110M）のファインチューニングは不十分だが、proper なファインチューニングを施した all-mpnet-base-v2 はリトリーバルのリコールを強く達成し得る（ステップの Recall@15 が0.743 まで、テーブルの Recall@10 が0.766 まで）。
RAG搭載の StarCoderBase-7B は、Trigger EM および Bag of Steps で複数の大型LLMに匹敵または上回りつつ、幻覚を抑制。
OOD評価は、リトリーバーを使用した場合の平均的な性能が、ドメイン内と同等の結果に近く、再訓練なしで良好な一般化を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。