QUICK REVIEW

[论文解读] Understanding QA generation: Extracting Parametric and Contextual Knowledge with CQA for Low Resource Bangla Language

Umme Abira Azmary, MD Ikramul Kayes|arXiv (Cornell University)|Feb 1, 2026

Natural Language Processing Techniques被引用 0

一句话总结

这篇论文提出 BanglaCQA，一个孟加拉语的反事实问答数据集，用于区分参数知识与上下文知识，并且分析带有 CoT 提示的编码器-解码器与解码器仅模型在孟加拉语的事实性和反事实性问答中的表现。

ABSTRACT

Question-Answering (QA) models for low-resource languages like Bangla face challenges due to limited annotated data and linguistic complexity. A key issue is determining whether models rely more on pre-encoded (parametric) knowledge or contextual input during answer generation, as existing Bangla QA datasets lack the structure required for such analysis. We introduce BanglaCQA, the first Counterfactual QA dataset in Bangla, by extending a Bangla dataset while integrating counterfactual passages and answerability annotations. In addition, we propose fine-tuned pipelines for encoder-decoder language-specific and multilingual baseline models, and prompting-based pipelines for decoder-only LLMs to disentangle parametric and contextual knowledge in both factual and counterfactual scenarios. Furthermore, we apply LLM-based and human evaluation techniques that measure answer quality based on semantic similarity. We also present a detailed analysis of how models perform across different QA settings in low-resource languages, and show that Chain-of-Thought (CoT) prompting reveals a uniquely effective mechanism for extracting parametric knowledge in counterfactual scenarios, particularly in decoder-only LLMs. Our work not only introduces a novel framework for analyzing knowledge sources in Bangla QA but also uncovers critical findings that open up broader directions for counterfactual reasoning in low-resource language settings.

研究动机与目标

解决孟加拉语问答中区分参数偏差与上下文偏差的基准缺失问题。
创建 BanglaCQA，首个具备可回答性标注的孟加拉语反事实问答数据集。
评估编码器-解码器模型与解码器仅语言模型在事实性与反事实性场景中对参数性知识与上下文知识的利用。
研究提示策略（少量示例与连锁推理）在提升孟加拉语问答中参数性推理能力方面的效果。

提出的方法

在 BanglaRQA 的基础上扩展 6,303 个反事实上下文与 21,211 条总问答对。
在 Factual+Answerability (F+A) 与 Factual+Counterfactual+Answerability (F+CF+A) 配置下，对 BanglaT5-small/base 与 mT5 进行微调。
对解码器仅语言模型（Qwen-2.5、DeepSeek-R1、Mistral-3-small、LLaMA-3.3）进行少量示例与连锁推理提示的评估。
使用 Gemini-2.0-Flash 与 GPT-4.1 进行参数性与上下文输出的语义相似性评分；并辅以人工评估。
对输出进行孟加拉语匿名化与归一化；进行统计检验（t 检验、Cohen’s d）以比较提示策略。

实验结果

研究问题

RQ1RQ1：在反事实上下文中，孟加拉语编码器-解码器模型在参数性答案生成方面表现不佳的原因是什么，解码器仅语言模型是否能提供帮助？
RQ2RQ2：提示策略（CoT 与少量示例）如何在事实性与反事实性场景下影响孟加拉语问答的参数性与上下文性表现？
RQ3RQ3：语言模型的架构差异如何影响在孟加拉语问答中上下文性与参数性知识的整合？
RQ4RQ4：在评估孟加拉语的参数性与上下文性问答时有哪些局限性与错误来源？

主要发现

编码器-解码器的孟加拉模型在 CF 参数性相似度方面存在大幅下降（例如 BanglaT5 Small 从 0.70 降至 0.11），表明在反事实中依赖上下文线索多于参数知识。
对事实性与反事实数据同时进行微调可以提升上下文相似度，但对 CF 参数性相似度的提升并不显著。
连锁推理提示在解码器仅语言模型上对事实性与反事实上下文的参数性相似度均有显著改进。
表3的最佳整体表现由 BanglaT5 Base 在 CF+A 设置实现，CF 上下文相似度为 0.87，CF 参数性相似度为 0.23；带 CoT 的解码器仅模型同样显示出强参数性提升。
提示策略（CoT）在参数性相似度上的提升效果显著，效应量很大（Cohen’s d > 5）。
Gemini-2.0 Flash 与 GPT-4.1 在孟加拉语的语义相似性评估中比传统指标更可靠。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。