QUICK REVIEW

[논문 리뷰] Understanding QA generation: Extracting Parametric and Contextual Knowledge with CQA for Low Resource Bangla Language

Umme Abira Azmary, MD Ikramul Kayes|arXiv (Cornell University)|2026. 02. 01.

Natural Language Processing Techniques인용 수 0

한 줄 요약

본 논문은 BanglaCQA를 도입합니다. 이는 파라메트릭 지식과 맥락 지식을 해소하기 위한 벵골어(counterfactual) QA 데이터셋이며, Bangla의 사실적 및 반사실적 QA에서 CoT 프롬프트를 활용한 인코더-디코더 모델과 디코더-전용 모델의 차이를 분석합니다.

ABSTRACT

Question-Answering (QA) models for low-resource languages like Bangla face challenges due to limited annotated data and linguistic complexity. A key issue is determining whether models rely more on pre-encoded (parametric) knowledge or contextual input during answer generation, as existing Bangla QA datasets lack the structure required for such analysis. We introduce BanglaCQA, the first Counterfactual QA dataset in Bangla, by extending a Bangla dataset while integrating counterfactual passages and answerability annotations. In addition, we propose fine-tuned pipelines for encoder-decoder language-specific and multilingual baseline models, and prompting-based pipelines for decoder-only LLMs to disentangle parametric and contextual knowledge in both factual and counterfactual scenarios. Furthermore, we apply LLM-based and human evaluation techniques that measure answer quality based on semantic similarity. We also present a detailed analysis of how models perform across different QA settings in low-resource languages, and show that Chain-of-Thought (CoT) prompting reveals a uniquely effective mechanism for extracting parametric knowledge in counterfactual scenarios, particularly in decoder-only LLMs. Our work not only introduces a novel framework for analyzing knowledge sources in Bangla QA but also uncovers critical findings that open up broader directions for counterfactual reasoning in low-resource language settings.

연구 동기 및 목표

Bangla QA에서 파라메트릭 편향과 맥락 편향을 구분하기 위한 벵골어 QA 벤치마크의 부족을 해소한다.
답변 가능성 주석이 포함된 최초의 벵골어 반사실 QA 데이터셋인 BanglaCQA를 만든다.
인코더-디코더 모델과 디코더-전용 LLM이 사실적 및 반사실적 설정에서 파라메트릭 지식과 맥락 지식을 어떻게 활용하는지 평가한다.
Bangla QA에서 파라메트릭 추론을 향상시키기 위한 프롬프팅 전략(Few-shot vs Chain-of-Thought)을 조사한다.

제안 방법

BanglaRQA를 6,303개의 반사실 맥락과 21,211개의 전체 QA 쌍으로 확장한다.
BanglaT5-small/base와 mT5를 Factual+Answerability(F+A) 및 Factual+Counterfactual+Answerability(F+CF+A) 구성으로 미세조정한다.
few-shot 및 Chain-of-Thought 프롬프팅을 사용하여 디코더-전용 LLM(Qwen-2.5, DeepSeek-R1, Mistral-3-small, LLaMA-3.3)을 평가한다.
Parametric 및 contextual 출력의 의미론적 유사성 점수화를 위해 Gemini-2.0-Flash와 GPT-4.1을 사용하고, 인간 평가를 보완한다.
출력을 Bangla로 익명화하고 정규화하며, 프롬프팅 전략을 비교하기 위해 통계적 검정(t-검정, Cohen’s d)을 수행한다.

실험 결과

연구 질문

RQ1RQ1: 반사실 컨텍스트에서 Bangla 인코더-디코더 모델이 파라메트릭 정답 생성에서 저조한 이유는 무엇이며, 디코더-전용 LLM이 도움이 될 수 있는가?
RQ2RQ2: 프롬프팅 전략(CoT vs Few-shot)이 사실적 및 반사실적 맥락에서 Bangla QA의 파라메트릭 및 맥락적 성능에 어떤 영향을 미치는가?
RQ3RQ3: 언어 모델 간의 아키텍처 차이가 Bangla QA에서 맥락 지식과 파라메트릭 지식의 통합에 어떻게 영향을 미치는가?
RQ4RQ4: Bangla에서 파라메트릭 vs 맥락적 QA를 평가하는 데 있어 한계점과 오류 원천은 무엇인가?

주요 결과

인코더-디코더 Bangla 모델은 CF Parametric 유사도에서 큰 하락을 보이며(예: BanglaT5 Small가 0.70에서 0.11로 감소), 반사실에서 파라메트릭 지식보다 맥락 단서에 의존하는 것을 나타낸다.
사실적 및 반사실 데이터 모두에 대한 미세조정은 맥락적 유사도를 향상시키지만 CF 파라메트릭 유사도를 크게 높이지는 못한다.
Chain-of-Thought 프롬프팅은 사실적 및 반사실적 컨텍스트 모두에서 디코더-전용 LLM의 파라메트릭 유사도를 크게 향상시킨다.
표 3의 최상의 전체 성능은 CF+A 설정의 BanglaT5 Base로 CF contextual similarity 0.87, CF parametric similarity 0.23을 보여주며; CoT를 사용한 디코더-전용 결과 역시 강한 파라메트릭 이득을 보인다.
프롬프팅 전략(CoT)이 파라메트릭 유사도를 크게 향상시키며 효과크기(Cohen’s d > 5)가 크다.
Gemini-2.0 Flash와 GPT-4.1은 Bangla의 의미론적 유사성 평가에 있어 전통적 지표보다 더 신뢰할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.