[논문 리뷰] CVPD at QIAS 2026: RAG-Guided LLM Reasoning for Al-Mawarith Share Computation and Heir Allocation
본 논문은 이슬람 상속 추론을 위한 검색 보강 및 스키마 제약 파이프라인을 제시하며, MIR-E 0.935를 달성하고 QIAS 2026 블라인드 테스트 리더보드에서 1위를 차지한다.
Islamic inheritance (Ilm al-Mawarith) is a multi-stage legal reasoning task requiring the identification of eligible heirs, resolution of blocking rules (hajb), assignment of fixed and residual shares, handling of adjustments such as awl and radd, and generation of a consistent final distribution. The task is further complicated by variations across legal schools and civil-law codifications, requiring models to operate under explicit legal configurations. We present a retrieval-augmented generation (RAG) pipeline for this setting, combining rule-grounded synthetic data generation, hybrid retrieval (dense and BM25) with cross-encoder reranking, and schema-constrained output validation. A symbolic inheritance calculator is used to generate a large high-quality synthetic corpus with full intermediate reasoning traces, ensuring legal and numerical consistency. The proposed system achieves a MIR-E score of 0.935 and ranks first on the official QIAS 2026 blind-test leaderboard. Results demonstrate that retrieval-grounded, schema-aware generation significantly improves reliability in high-precision Arabic legal reasoning tasks.
연구 동기 및 목표
- 마다히브(madhāhib)와 민법 전반에 걸친 정밀하고 다단계의 이슬람 상속 추론을 촉진한다.
- 완전한 중간 추론 추적을 제공하는 규칙 기반 합성 데이터 생성기를 개발한다.
- 결정적 검증을 갖춘 검색 보강, 스키마 제약 생성 파이프라인을 구축한다.
- 다단계의 정확성과 강건성을 평가하기 위해 QIAS 2026 벤치마크에 파이프라인을 평가한다.
제안 방법
- 결정적 규칙 기반 생성기와 기호적 상속 계산기가 완전한 단계별 추론 추적을 갖춘 합성 사례를 생성한다.
- 교차 인코더 재랭크가 있는 하이브리드 검색기(밀집 + BM25)가 맥락으로 관련 해결 사례를 선택한다.
- 구조화된 출력을 강제하는 제약된 LLM 디코딩과 키, 형식, 레이블, 질량 일관성을 강제하는 하류 검증.
- 주요 검색 백본으로 PDF 큐레이션 증거를 사용합니다; 검색 증거를 아랍어 프롬프트에 주입해 사고 과정을 분해하고 최종 답으로 이끈다.
- 생성 후 파싱과 다단계 검증을 통해 스키마 준수 및 비핵심 필드 누락에 대한 대체 처리를 보장한다.

실험 결과
연구 질문
- RQ1검색 기반이고 스키마 인식 파이프라인이 고정밀 이슬람 법 상속 작업에서 엔드투엔드 LLM 접근법을 능가할 수 있는가?
- RQ2합성적이고 규칙 기반의 감독이 다단계 추론과 수치 정확도에 어떤 영향을 미치는가?
- RQ3검색 소스(PDF 대 웹)가 의미 품질과 최종 MIR-E 성능에 어떤 영향을 미치는가?
- RQ4MIR-E 평가 하에서 하류 검증이 올바른 구조화된 출력을 보장하는 데 얼마나 효과적인가?
주요 결과
| 순위 | 팀 | MIR-E |
|---|---|---|
| 1 | CVPD (ours) | 0.935 |
| 2 | Simplicity Almansour (2026) | 0.931 |
| 3 | KMS Alkhamis (2026) | 0.916 |
| 4 | QU-NLP * | 0.907 |
| 5 | PSL Mouhoub (2026) | 0.898 |
| 6 | grkurdi * | 0.826 |
| 7 | UTLM * | 0.742 |
| 8 | rouba1234 * | 0.325 |
- 파이프라인은 MIR-E 0.935를 달성했고 QIAS 2026 블라인드 테스트 리더보드에서 1위를 차지했다.
- 기성품 Qwen 3.5 9B가 공개 모델 중 가장 강력한 초기 추론을 제공하지만 출력에 대한 구조적 검증이 필요하다.
- PDF 전용 검색은 의미 품질과 검색 성공에서 PDF+Web 및 Web 전용을 능가한다 (PDF 전용: 190/200 고품질 검색).
- 검색 기반, 스키마 제약 생성은 이전의 검색 프롬프트나 미세조정 접근법과 비교해 신뢰성과 안정성을 향상시킨다.
- 잔류 오류는 차단 로직, 분수 산술, 및 ‘awl 처리'의 경계 상황에 집중된다.
- 선별된 PDF 판례 증거가 고정밀 법적 추론에서 웹 소스보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.