Skip to main content
QUICK REVIEW

[論文レビュー] iFlip: Iterative Feedback-driven Counterfactual Example Refinement

Yilong Wang, Qianli Wang|arXiv (Cornell University)|Jan 4, 2026
Explainable Artificial Intelligence (XAI)被引用数 0
ひとこと要約

iFlipはモデルの信頼度、特徴分配、自然言語フィードバックを用いる反復的精練フレームワークを提案し、LLMsとともに有効な反事実を生成して妥当性をベースラインより向上させ、データ拡張を改善する。

ABSTRACT

Counterfactual examples are minimal edits to an input that alter a model's prediction. They are widely employed in explainable AI to probe model behavior and in natural language processing (NLP) to augment training data. However, generating valid counterfactuals with large language models (LLMs) remains challenging, as existing single-pass methods often fail to induce reliable label changes, neglecting LLMs' self-correction capabilities. To explore this untapped potential, we propose iFlip, an iterative refinement approach that leverages three types of feedback, including model confidence, feature attribution, and natural language. Our results show that iFlip achieves an average 57.8% higher validity than the five state-of-the-art baselines, as measured by the label flipping rate. The user study further corroborates that iFlip outperforms baselines in completeness, overall satisfaction, and feasibility. In addition, ablation studies demonstrate that three components are paramount for iFlip to generate valid counterfactuals: leveraging an appropriate number of iterations, pointing to highly attributed words, and early stopping. Finally, counterfactuals generated by iFlip enable effective counterfactual data augmentation, substantially improving model performance and robustness.

研究の動機と目的

  • explainability とデータ拡張のために、LLMs が生成する反事実の妥当性を改善することを動機づける。
  • 反事実の編集を導く複数のフィードバック信号を用いた反復的精練手法を開発する。
  • 妥当性と使いやすさの妥当性と有効性を定量的利得とユーザ研究で示す。

提案手法

  • 3つのフィードバックタイプ(モデル信頼度、特徴帰属、自然言語指針)を活用して反事実を refined する。
  • フィードバックに基づくターゲット編集を通じて反事実を反復的に生成・精練する。
  • 適切な反復回数、強く帰属される語のハイライト、早期停止を含む妥当性の推進要因を特定する。
  • 5つのベースラインとアブレーション研究を通じて、ラベル反転率(妥当性)で反事実を評価する。
  • 反事実が効果的なデータ拡張に利用できることを示し、モデル性能と頑健性を向上させる。

実験結果

リサーチクエスチョン

  • RQ1反復的でフィードバック駆動の精練は、LLMs が生成する反事実の妥当性を改善できるか?
  • RQ2異なるフィードバックタイプ(モデル信頼度、特徴帰属、自然言語)の反事実品質への影響は?
  • RQ3反復回数、帰属フォーカス、早期停止は妥当性と実用性にどう影響するか?
  • RQ4iFlip 生成の反事実はデータ拡張に用いた際に下流モデルの性能を向上させるか?
  • RQ5このアプローチはユーザー視点で実現可能性と満足度があるか?

主な発見

  • iFlipは、平均して、5つの最先端ベースラインよりも妥当性(ラベル反転率)が57.8%高い。
  • ユーザ研究により、iFlipはベースラインよりも完成度、全体的満足度、実現可能性で優れている。
  • アブレーション研究は、3つの要素が重要であることを示す:適切な反復回数、強く帰属された語のターゲティング、早期停止。
  • iFlip により生成された反事実は、効果的なデータ拡張を実現し、モデルの性能と頑健性を大幅に向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。