QUICK REVIEW

[論文レビュー] From RAG to QA-RAG: Integrating Generative AI for Pharmaceutical Regulatory Compliance Process

Jaewoong Kim, Moohong Min|arXiv (Cornell University)|Jan 26, 2024

Statistical and Computational Modeling被引用数 10

ひとこと要約

QA-RAGは、微調整済みLLMの回答をデュアルトラック検索に組み込むことにより、Retrieval Augmented Generationを拡張し、医薬品規制ガイダンスの文脈関連性と最終回答の質を向上させる。

ABSTRACT

Regulatory compliance in the pharmaceutical industry entails navigating through complex and voluminous guidelines, often requiring significant human resources. To address these challenges, our study introduces a chatbot model that utilizes generative AI and the Retrieval Augmented Generation (RAG) method. This chatbot is designed to search for guideline documents relevant to the user inquiries and provide answers based on the retrieved guidelines. Recognizing the inherent need for high reliability in this domain, we propose the Question and Answer Retrieval Augmented Generation (QA-RAG) model. In comparative experiments, the QA-RAG model demonstrated a significant improvement in accuracy, outperforming all other baselines including conventional RAG methods. This paper details QA-RAG's structure and performance evaluation, emphasizing its potential for the regulatory compliance domain in the pharmaceutical industry and beyond. We have made our work publicly available for further research and development.

研究の動機と目的

FDA/ICHを含む広範な医薬品規制ガイドラインの検索における非効率性へ対処する。
微調整済みLLMの回答とユーザーの問合せを統合して検索精度を高めるQA-RAGチャットボットを提案する。
文脈検索と回答生成の点で、QA-RAGが従来のRAGベースラインを上回ることを示す。
医薬品以外の分野特有の規制にも適用可能性があることを示す。

提案手法

dense document embeddingsを用い（埋め込みモデル: LLM-Embedder）とFAISSを用いてOCRで処理された1,404件のFDA/ICHガイドライン文書のスケーラブルな類似検索を実行する（チャンクは10,000文字サイズ、2,000文字のオーバーラップ）。
デュアル-track検索を実装：ユーザーのクエリと微調整済みLLM（FDA Q&Aデータ）によって生成された仮想回答の両方を用いて文書を検索する。
2つのLLM（ChatGPT 3.5-TurboとMistral-7B）をFDA FAQデータでファインチューンする；BertScoreを用いてGPT-4と比較する；最良の精度/再現性のバランスのためChatGPT 3.5-Turboを選択する。
リランキング器（BGEリランキング器）を適用して、取得文書をクエリと最終回答生成段階への関連性でランキングする。
少数ショットプロンプトを用いてChatGPT-3.5-Turboのファイナルアンサーエージェントで最終回答を生成する。
LLMs-as-judgesフレームワークで評価する（文脈検索にはRagas、回答品質にはBertScoreを用いる）。

実験結果

リサーチクエスチョン

RQ1医薬品の規制ガイドラインに対して、QAを重視したRAG変種は検索の精度と再現性を向上させることができるか？
RQ2微調整済みLLMの仮想回答を検索に組み込むことは、従来のRAGおよびHyDE風手法と比較して最終回答の品質を向上させるか？
RQ3規制分野における文脈検索と回答生成における、ファインチューニング済みLLMと一般LLMの影響はどのようか？

主な発見

QA-RAGは主要なベースラインよりも高い文脈精度（0.717）と文脈再現率（0.328）を達成する。
回答生成では、QA-RAGは精度0.551、再現率0.645、F10.591を達成し、ベースラインを上回る。
微調整済みLLMの仮想回答を使用すると、質問のみまたはHyDEベースのベースラインよりも検索の関連性が大幅に向上する。
アブレーションにより、仮想回答コンポーネントが文脈精度を大幅に向上させることが示され；質問と仮想回答を組み合わせると最も強い性能を発揮する。
微調整済みLLM（ChatGPT 3.5-Turbo）はこの分野の他の変種より優れており、規制タスクにおけるドメイン適応型ファインチューニングの有効性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。