Skip to main content
QUICK REVIEW

[논문 리뷰] RegGuard: AI-Powered Retrieval-Enhanced Assistant for Pharmaceutical Regulatory Compliance

Siyuan Yang, Xihan Bian|arXiv (Cornell University)|2026. 01. 25.
Biomedical Text Mining and Ontologies인용 수 0
한 줄 요약

RegGuard는 계층적 의미 단위 분할(HiSACC)과 도메인에 맞춰 적응된 크로스-인코더 재랭커(ReLACE)를 사용하여 제약 규정 텍스트를 검색하고 근거를 제시하며 제약 준수에 대한 허위 진술을 감소시키고 답변 품질을 향상시킵니다.

ABSTRACT

The increasing frequency and complexity of regulatory updates present a significant burden for multinational pharmaceutical companies. Compliance teams must interpret evolving rules across jurisdictions, formats, and agencies, often manually, at high cost and risk of error. We introduce RegGuard, an industrial-scale AI assistant designed to automate the interpretation of heterogeneous regulatory texts and align them with internal corporate policies. The system ingests heterogeneous document sources through a secure pipeline and enhances retrieval and generation quality with two novel components: HiSACC (Hierarchical Semantic Aggregation for Contextual Chunking) semantically segments long documents into coherent units while maintaining consistency across non-contiguous sections. ReLACE (Regulatory Listwise Adaptive Cross-Encoder for Reranking), a domain-adapted cross-encoder built on an open-source model, jointly models user queries and retrieved candidates to improve ranking relevance. Evaluations in enterprise settings demonstrate that RegGuard improves answer quality specifically in terms of relevance, groundedness, and contextual focus, while significantly mitigating hallucination risk. The system architecture is built for auditability and traceability, featuring provenance tracking, access control, and incremental indexing, making it highly responsive to evolving document sources and relevant for any domain with stringent compliance demands.

연구 동기 및 목표

  • 제약 분야에서 각 관할권 간에 빠르게 진화하는 이질적인 규제 업데이트의 도전을 다룬다.
  • 규제 텍스트의 해석 자동화와 내부 기업 정책과의 정렬.
  • 검색 기반 생성(RAG)을 활용한 LLM 기반 규제 분석에서의 허위 진술 위험 완화.
  • 엄격한 준수 환경에 적합한 감사 가능하고 추적 가능한 시스템 아키텍처를 제공.

제안 방법

  • 긴 규제 문서에서 일관되고 비연속적인 조각들을 생성하는 계층적 의미 집계 방법 HiSACC를 도입한다.
  • 규제 QA 데이터에 대한 리스트형 목표로 학습된 도메인에 적응된 크로스-인코더 재랭커 ReLACE를 개발하여 재검색 후 랭킹을 향상시킨다.
  • Milvus에서 추출한 임베딩을 생성기로 맥락을 전달하기 전에 ReLACE로 재랭킹하는 검색 증강 생성 파이프라인을 사용한다.
  • 스캔 콘텐츠용 OCR가 포함된 보안 파이프라인을 통해 다중 형식의 엔터프라이즈 문서(PDF, Word, Excel, Google Docs/Sheets)를 수집한다.
  • 사용자 상호작용에 Gradio/FastAPI를 사용하고 Roche의 Galileo AI Platform 내에서 내부 GPT-4 Turbo 모델로 생성한다.
  • 관련성, 근거 제시 및 진실성을 측정하는 RC-QA 평가 프레임워크와 함께 기업 규제 QA 데이터 세트를 사용하여 평가한다.

실험 결과

연구 질문

  • RQ1길이가 긴 규제 문서에서 계층적 조각화가 의미적 일관성과 검색 품질을 어떻게 향상시킬 수 있는가?
  • RQ2도메인에 적응된 크로스-인코더 재랭커(ReLACE)가 재검색 후의 관련성과 근거 제시를 규제 QA 작업에서 향상시키는가?
  • RQ3제약 규제 준수 환경에서 HiSACC + ReLACE의 정확도, 근거 제시 및 허위 진술 위험에 미치는 영향은 무엇인가?
  • RQ4RegGuard가 엔터프라이즈 인프라에서 감사 가능한 출처 추적, 접근 제어 및 신뢰할 수 있는 작동을 제공할 수 있는가?

주요 결과

  • HiSACC와 ReLACE의 결합은 다수의 검색 설정에서 관련성, 근거 제시, 충실도 측면에서 일관되게 기준선보다 우수하다.
  • HiSACC는 전통적 RCS에 비해 의미 체킹을 개선하여 단편화를 줄이고 맥락 정렬을 향상시킨다.
  • ReLACE는 도메인 적응형 리스트형 재랭킹을 제공하여 규제 구절과의 맥락 매치를 더 잘 수행함으로써 근거 제시를 강화하고 허위 진술을 감소시킨다.
  • 통합 시스템은 강한 충실도와 근거 제시를 달성하면서 기업 사용에 적합한 대기 시간을 유지한다.
  • 시스템 배치는 감사 가능성, 출처 추적 및 규정 준수 환경에 적합한 보안 내 운영을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.