Skip to main content
QUICK REVIEW

[論文レビュー] Disentangling Influence: Using disentangled representations to audit model predictions

Charles T. Marx, Richard L. Phillips|arXiv (Cornell University)|Jun 20, 2019
Machine Learning and Data Classification被引用数 10
ひとこと要約

本稿では、ブラックボックスモデルにおける間接的特徴の影響を特定・定量化するために、分離表現を活用する分離的影響監査(disentangled influence audits)という手法を導入する。分離によって代理特徴を分離することで、このアプローチは局所的および集計的に、正確かつ解釈可能な監査を可能にし、既存の手法に比べて間接的影響の検出と測定において優れている。

ABSTRACT

Motivated by the need to audit complex and black box models, there has been extensive research on quantifying how data features influence model predictions. Feature influence can be direct (a direct influence on model outcomes) and indirect (model outcomes are influenced via proxy features). Feature influence can also be expressed in aggregate over the training or test data or locally with respect to a single point. Current research has typically focused on one of each of these dimensions. In this paper, we develop disentangled influence audits, a procedure to audit the indirect influence of features. Specifically, we show that disentangled representations provide a mechanism to identify proxy features in the dataset, while allowing an explicit computation of feature influence on either individual outcomes or aggregate-level outcomes. We show through both theory and experiments that disentangled influence audits can both detect proxy features and show, for each individual or in aggregate, which of these proxy features affects the classifier being audited the most. In this respect, our method is more powerful than existing methods for ascertaining feature influence.

研究の動機と目的

  • 複雑なブラックボックスモデルにおける間接的特徴の影響監査のギャップを埋める。
  • 分離表現を用いて、予測に間接的に影響を与える代理特徴を特定する。
  • 個々の予測および集計的結果における特徴の影響を明示的に計算可能にする。
  • 既存の影響監査手法よりも強力で解釈可能な代替手法を提供する。

提案手法

  • 入力特徴を分離可能な変動要因に分解するため、分離表現を活用する。
  • ターゲット予測と相関する分離成分を分析することで、代理特徴を特定する。
  • 分離表現を対象に影響関数または類似手法を用いて影響スコアを計算する。
  • 影響計算を局所的(個々の予測ごと)およびグローバル(データ分布全体)に適用する。
  • 元の入力特徴ではなく、特定の代理特徴への影響を分離・帰属化するために分離構造を活用する。
  • 分離と影響分析を統合し、直接的経路と間接的経路の影響を区別する。

実験結果

リサーチクエスチョン

  • RQ1分離表現を用いて、予測に間接的に影響を与える代理特徴をどのように検出できるか?
  • RQ2分離的影響監査は、既存の手法に比べてどれほど正確に間接的影響を定量化できるか?
  • RQ3分離的影響監査は、個々の予測や集計的結果に最も強く影響を与える代理特徴を特定できるか?
  • RQ4本手法は、実世界のデータセットにおいて直接的影響と間接的影響をどれほど正確に区別できるか?

主な発見

  • 分離的影響監査は、直接的に予測に寄与しないが、間接的経路を通じてモデルの出力に影響を与える代理特徴を効果的に検出できた。
  • 本手法は、局所的および集計的両方の文脈で、特定の代理特徴への影響を正確に帰属化可能であった。
  • 分離表現により、意味的に明確な分離可能な変動要因が分離されるため、影響分析の解釈可能性が向上した。
  • 本手法は、既存の影響監査技術に比べて、間接的影響の特定と測定において優れた性能を示した。
  • 実験的結果から、分離的影響監査は、標準的手法では検出できない隠れた依存関係や代理関係を明らかにできた。
  • 本手法は、多様なデータセットおよびモデルアーキテクチャにおいて、間接的影響メカニズムの同定において頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。