QUICK REVIEW

[論文レビュー] Introspective Distillation for Robust Question Answering

Yulei Niu, Hanwang Zhang|arXiv (Cornell University)|Nov 1, 2021

Multimodal Machine Learning Applications参考文献 24被引用数 33

ひとこと要約

IntroDは因果教師からの内省を通じてIDとOODの帰納的バイアスをブレンドし、公平で堅牢なQA学生モデルを蒸留する。VQAとSQuADのベンチマークで、IDとOODの両方の性能が高い強力なモデルを達成する。

ABSTRACT

Question answering (QA) models are well-known to exploit data bias, e.g., the language prior in visual QA and the position bias in reading comprehension. Recent debiasing methods achieve good out-of-distribution (OOD) generalizability with a considerable sacrifice of the in-distribution (ID) performance. Therefore, they are only applicable in domains where the test distribution is known in advance. In this paper, we present a novel debiasing method called Introspective Distillation (IntroD) to make the best of both worlds for QA. Our key technical contribution is to blend the inductive bias of OOD and ID by introspecting whether a training sample fits in the factual ID world or the counterfactual OOD one. Experiments on visual QA datasets VQA v2, VQA-CP, and reading comprehension dataset SQuAD demonstrate that our proposed IntroD maintains the competitive OOD performance compared to other debiasing methods, while sacrificing little or even achieving better ID performance compared to the non-debiasing ones.

研究の動機と目的

データのバイアスがOOD一般化を損なう点を解消しつつID精度を維持することで、堅牢なQAを動機づける。
IntroDを導入し、教師の予測の内省的ウェイト付けに基づいてIDとOODの帰納的バイアスをブレンドする。
見えない分布にアクセスできない状態で、因果モデル化を活用してID-およびOOD対応の予測を近似する。
視覚QA（VQA v2、VQA-CP v2）と抽出型QA（SQuAD）ベンチマークでIntroDの有効性を示す。
内省、ウェイト付け、蒸留が性能向上に寄与するメカニズムを理解するためのアブレーションを提供する。

提案手法

ID（事実ベース）とOOD（反事実ベース）の帰納的バイアスを捉えるために、2つの専門的な因果教師を使用する。
sIDとsOODを、ID-教師とOOD-教師から得られる正解ラベルに対する信頼度として計算する（式1）。
一致スコアに反比例する重みwIDとwOODでバイアスをバランスさせる（式3）。
知識をP_T = wID * ID-Knowledge + wOOD * OOD-Knowledgeとしてブレンドする（式5）。
蒸留はP_Tに対する KL損失を用いて学生モデルへ蒸留する（式6）。
P_ID対P_GTをID-Knowledgeとして使用する場合と、ソフトウェア的に重み付けするハード/ソフトの比較を任意で行い、影響を分析する。

実験結果

リサーチクエスチョン

RQ1IDとOODのバイアスの内省的ウェイト付けで、IDとOODの両方の設定で強力な性能を持つQAモデルを得られるか？
RQ2異なる因果デバイアス教師とウェイト戦略が、VQAとSQuADを横断するID/OODトレードオフにどのように影響するか？
RQ3IntroDはOOD教師の品質に依存するのか、単純なアンサンブル法よりも優れているか？
RQ4ID-KnowledgeとOOD-Knowledgeの基礎として、事実予測と反事実予測を用いることの影響は？
RQ5IntroDは視覚と抽出型など異なるQAパラダイムに適用して頑健性を維持できるか？

主な発見

IntroDはVQA-CP v2とVQA v2の複数の因果的デバイアスベースラインに対してIDとOODの正確性のトレードオフを改善する。
IntroDは、非デバイアスベースラインや一部のデバイアス手法と比べて、IDの性能を維持または向上させつつOODの堅牢性を競争力のある水準にする。
反事実（OOD）教師を用いて未知の分布を近似することは、内省的ウェイト付けと組み合わせると蒸留に有効である。
ソフトウェイト付けとハードウェイト付けの効果はデータセットと教師に依存する；ハードウェイトはOREが弱い教師に有利で、ソフトウェイトは強い教師に有利である。
SQuADでは、IntroDはLMとベースモデル間でIDの性能を維持・向上させつつ、位置バイアスに対するOODの堅牢性を高める。
アブレーション研究は、IntroDの利得が因果的内省に起因し、単なる教師のアンサンブルではないことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。