QUICK REVIEW

[論文レビュー] Understanding QA generation: Extracting Parametric and Contextual Knowledge with CQA for Low Resource Bangla Language

Umme Abira Azmary, MD Ikramul Kayes|arXiv (Cornell University)|Feb 1, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

tldr: The paper introduces BanglaCQA, a Bangla counterfactual QA dataset to disentangle parametric and contextual knowledge, and analyzes encoder-decoder vs decoder-only models with CoT prompting for factual and counterfactual QA in Bangla.

ABSTRACT

Question-Answering (QA) models for low-resource languages like Bangla face challenges due to limited annotated data and linguistic complexity. A key issue is determining whether models rely more on pre-encoded (parametric) knowledge or contextual input during answer generation, as existing Bangla QA datasets lack the structure required for such analysis. We introduce BanglaCQA, the first Counterfactual QA dataset in Bangla, by extending a Bangla dataset while integrating counterfactual passages and answerability annotations. In addition, we propose fine-tuned pipelines for encoder-decoder language-specific and multilingual baseline models, and prompting-based pipelines for decoder-only LLMs to disentangle parametric and contextual knowledge in both factual and counterfactual scenarios. Furthermore, we apply LLM-based and human evaluation techniques that measure answer quality based on semantic similarity. We also present a detailed analysis of how models perform across different QA settings in low-resource languages, and show that Chain-of-Thought (CoT) prompting reveals a uniquely effective mechanism for extracting parametric knowledge in counterfactual scenarios, particularly in decoder-only LLMs. Our work not only introduces a novel framework for analyzing knowledge sources in Bangla QA but also uncovers critical findings that open up broader directions for counterfactual reasoning in low-resource language settings.

研究の動機と目的

研究目的と動機: Bangla QAにおけるパラメトリック知識と文脈知識を分離するベンチマークの欠如に対処する。
BanglaCQAを、回答可能性アノテーションを伴う最初のBangla counterfactual QAデータセットとして作成する。
エンコード-デコーダモデルとデコーダーのみのLLMが、事実ベースおよび反事実設定でパラメトリック知識と文脈知識をどのように利用するかを評価する。
Bangla QAにおけるパラメトリック推論を向上させるためのプロンプティング戦略（Few-shot vs Chain-of-Thought）を調査する。

提案手法

方法: BanglaRQAを拡張し、6,303件のcounterfactualコンテキストと21,211件の総QAペアを追加。
BanglaT5-small/baseおよびmT5をFactual+Answerability (F+A) および Factual+Counterfactual+Answerability (F+CF+A)設定でファインチューン。
Decoder-only LLMs（Qwen-2.5, DeepSeek-R1, Mistral-3-small, LLaMA-3.3）をFew-shotおよびChain-of-Thought promptingで評価。
パラメトリックおよび文脈的出力の意味的類似性スコアリングにGemini-2.0-FlashとGPT-4.1を使用し、人間評価を補足。
Banglaに合わせて出力を匿名化・正規化し、比較にはt検定、Cohen’s dなどの統計検定を実施。

実験結果

リサーチクエスチョン

RQ1研究質問: RQ1: Banglaのエンコード-デコーダーモデルは反事実コンテキストでパラメトリック回答生成が低下する理由は何か、デコーダーonlyのLLMは役立つか。
RQ2RQ2: prompting戦略（CoT vs Few-shot）は、事実および反事実コンテキストにおけるパラメトリックおよび文脈的性能にどのように影響するか。
RQ3RQ3: 言語モデルのアーキテクチャの違いが、Bangla QAにおける文脈知識とパラメトリック知識の統合にどのように影響するか。
RQ4RQ4: Banglaにおけるパラメトリック対文脈QAの評価における制限と誤差源は何か。

主な発見

Model	Trained on	F Contextual Similarity	F Parametric Similarity	CF Contextual Similarity	CF Parametric Similarity
BanglaT5 Small	F+A	0.77	0.70	0.69	0.11
BanglaT5 Base	F+A	0.82	0.81	0.72	0.13
mT5 Small	F+A	0.84	0.79	0.79	0.09
BanglaT5 Small	F+CF+A	0.86	0.84	0.87	0.23
BanglaT5 Base	F+CF+A	0.86	0.84	0.87	0.23
mT5 Small	F+CF+A	0.87	0.81	0.84	0.15

主な発見: encoder-decoder BanglaモデルはCF Parametric類似性が大きく低下する (例: BanglaT5 Small 0.70 から 0.11) ことを示し、反事実ではパラメトリック知識より文脈的手掛かりに依存している。
ファインチューンはファクトゥアルと反事実の両データで文脈的類似性を改善するが、CFパラメトリック類似性を大幅には向上させない。
Chain-of-Thought promptingはデコーダーのみのLLMで事実・反事実の両方のCFパラメトリック類似性を有意に改善。
Table 3の総合的な最良性能はBanglaT5 BaseのCF+A設定でCF文脈類似性0.87、CFパラメトリック類似性0.23を示し、デコーダーのみの結果もCoTで強いパラメトリック向上を示す。
プロンプティング戦略（CoT）はパラメトリック類似性を大きな効果量（Cohen’s d > 5）で顕著に改善。
Gemini-2.0 FlashおよびGPT-4.1は従来の指標よりもBanglaの意味的類似性評価をより信頼できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。