[논문 리뷰] From RAG to QA-RAG: Integrating Generative AI for Pharmaceutical Regulatory Compliance Process
QA-RAG는 이중 트랙 검색에 미세조정된 LLM의 답변을 도입함으로써 Retrieval Augmented Generation을 확장하고, 제약 규제 가이드라인에 대한 맥락 관련성 및 최종 답변 품질을 향상시킵니다.
Regulatory compliance in the pharmaceutical industry entails navigating through complex and voluminous guidelines, often requiring significant human resources. To address these challenges, our study introduces a chatbot model that utilizes generative AI and the Retrieval Augmented Generation (RAG) method. This chatbot is designed to search for guideline documents relevant to the user inquiries and provide answers based on the retrieved guidelines. Recognizing the inherent need for high reliability in this domain, we propose the Question and Answer Retrieval Augmented Generation (QA-RAG) model. In comparative experiments, the QA-RAG model demonstrated a significant improvement in accuracy, outperforming all other baselines including conventional RAG methods. This paper details QA-RAG's structure and performance evaluation, emphasizing its potential for the regulatory compliance domain in the pharmaceutical industry and beyond. We have made our work publicly available for further research and development.
연구 동기 및 목표
- FDA/ICH의 광범위한 제약 규제 가이드라인 탐색의 비효율성 해결.
- 최적화된 LLM 답변을 사용자 쿼리와 결합하는 QA-RAG 챗봇을 제안하여 검색 성능 개선.
- QA-RAG가 맥락 검색 및 답변 생성에서 기존 RAG 베이스라인보다 우수하다는 것을 증명.
- 제약 외의 도메인별 규제에의 적용 가능성도 보여줌
제안 방법
- 밀집 문서 임베딩(임베딩 모델: LLM-Embedder)과 OCR로 처리된 1,404개의 FDA/ICH 가이드라인 문서에 대한 확장 가능한 유사도 검색을 위한 FAISS 활용(10,000자 크기로 청크, 2,000자 중복).
- 이중 트랙 검색 구현: 사용자 쿼리와 미세조정된 LLM(FDA Q&A 데이터)에서 생성된 가설적 답변 둘 다를 사용해 문서를 검색.
- FDA FAQ 데이터를 바탕으로 두 LLM(ChatGPT 3.5-Turbo 및 Mistral-7B)을 미세조정하고 BertScore를 통해 GPT-4와 비교; 최고의 정밀도/재현율 균형을 위해 ChatGPT 3.5-Turbo를 선택.
- 쿼리와 최종 답변 생성 단계와의 관련성에 따라 검색된 문서를 순위 매기기 위해 reranker(BGE reranker) 적용.
- few-shot 프롬프트를 이용한 ChatGPT-3.5-Turbo 최종 답변 에이전트를 통해 최종 답변 생성.
- 맥락 검색에서 RAGs를 평가하는 LLMs-as-judges 프레임워크(Ragas) 및 답변 품질을 위한 BertScore를 사용한 평가.
실험 결과
연구 질문
- RQ1제약 분야의 규제 가이드라인 검색에서 QA 중심의 RAG 변형이 검색 정확도와 재현율을 향상시킬 수 있는가?
- RQ2검색에 미세조정된 LLM의 가설적 답변을 포함시키는 것이 전통적 RAG 및 HyDE 스타일 방법에 비해 최종 답변 품질을 향상시키는가?
- RQ3미세조정된 LLM과 일반 LLM이 규제 도메인에서 맥락 검색 및 답변 생성에 미치는 영향은 무엇인가?
주요 결과
- QA-RAG는 주요 베이스라인보다 맥락 정밀도(0.717) 및 맥락 재현율(0.328)이 더 높게 달성되었습니다.
- 답변 생성에서 QA-RAG는 정밀도 0.551, 재현율 0.645, F1 0.591로 베이스라인을 능가합니다.
- 미세조정된 LLM의 가설적 답변을 사용하는 것이 질문 전용 또는 HyDE 베이스라인보다 검색 관련성을 크게 향상시킵니다.
- 가설적 답변 구성요소가 맥락 정밀도를 크게 향상시키는 사실을 포함하는 연구 민감도 분석; 질문과 가설적 답변의 결합이 가장 강력한 성능을 보였습니다.
- 도메인에 특화된 미세조정이 규제 작업에서 다른 변형들보다 우수하다는 것을 확인하며, 도메인 적응 미세조정의 타당성을 입증합니다(ChatGPT 3.5-Turbo가 다른 변형들보다 우수).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.