[論文レビュー] Distill-and-Compare: Auditing Black-Box Models Using Transparent Model Distillation
本稿では、API アクセスがなく、リスクスコアと真の結果を含むラベル付き監視データのみを用いて、ブラックボックスリスクスコアリングモデルを監査する手法「Distill-and-Compare」を提案する。透明なミミックモデルを訓練してブラックボックスモデルの挙動を蒸留し、真の結果に基づいて訓練された透明な結果モデルと比較することで、バイアスや欠落した特徴を特定する。主な発見として、ProPublica COMPASデータはおそらく重要な特徴を欠いていることが示され、モデルの忠実度はデータサイズよりも欠落した特徴の影響にさらに敏感であることが判明した。
Black-box risk scoring models permeate our lives, yet are typically proprietary or opaque. We propose Distill-and-Compare, a model distillation and comparison approach to audit such models. To gain insight into black-box models, we treat them as teachers, training transparent student models to mimic the risk scores assigned by black-box models. We compare the student model trained with distillation to a second un-distilled transparent model trained on ground-truth outcomes, and use differences between the two models to gain insight into the black-box model. Our approach can be applied in a realistic setting, without probing the black-box model API. We demonstrate the approach on four public data sets: COMPAS, Stop-and-Frisk, Chicago Police, and Lending Club. We also propose a statistical test to determine if a data set is missing key features used to train the black-box model. Our test finds that the ProPublica data is likely missing key feature(s) used in COMPAS.
研究の動機と目的
- API アクセスや学習データが入手できない状況下で、リスクスコアと結果を含むラベル付きデータのみを用いて、ブラックボックスリスクスコアリングモデルの現実的かつ実用的な監査手法を開発すること。
- 監査データにブラックボックスモデルの学習に使われた重要な特徴が欠落しているかどうかを特定すること。
- ブラックボックスモデルを模倣する遠隔訓練されたミミックモデルと、真の結果に基づいて訓練された透明な結果モデルを比較することで、バイアスやモデル行動の複雑さを明らかにすること。
- 保護された特徴(例:人種)が入力に含まれない状況でも、監査プロセスにそれらを含めることで、隠れたバイアスを検出可能にする。
提案手法
- ブラックボックスモデル(教師)のリスクスコアを、予測値と実際のリスクスコアの平均二乗誤差損失を用いて、透明なミミックモデル(生徒)が蒸留するように訓練する。
- 同じ監査データを用いて、真の結果を予測するための別個の透明な結果モデルを、対数尤度損失を用いて訓練する。
- ミミックモデルと結果モデルの両方の特徴重要度と関数形の違いを分析することで、2つのモデルを比較する。
- 統計的仮説検定を用いて、ブラックボックスモデルの学習に使われた重要な特徴が監査データに欠落しているかどうかを判断する。
- ブラックボックスモデルの学習中に生じたスケール歪みを是正するため、リスクスコアをキャリブレーションする。
- iGAM(透明なモデル)の信頼区間推定を改善し、モデルの解釈可能性と忠実度を比較する。
実験結果
リサーチクエスチョン
- RQ1API や学習データにアクセスできない状況でも、リスクスコアと結果を含むラベル付きデータのみを用いて、ブラックボックスリスクスコアリングモデルを監査可能か?
- RQ2ブラックボックスモデルの学習プロセスに使われた重要な特徴が、監査データに欠落しているか?
- RQ3遠隔訓練されたミミックモデルと真の結果に基づくモデルとの相違が、ブラックボックスモデルのバイアスや関数的複雑さをどのように明らかにするか?
- RQ4欠損データや欠落した特徴は、モデル蒸留の忠実度をどの程度低下させるか?
- RQ5保護された特徴(例:人種)が入力に使われない場合でも、透明なモデルがバイアスを検出可能か?
主な発見
- 統計的仮説検定とミミックモデルの忠実度が低いことから、ProPublica COMPASデータセットには元のモデルで使われた重要な特徴が欠落している可能性が高いことが示された。
- COMPASデータを用いたミミックモデルはRMSEが2.0に達したが、追加の非ラベル付き個人(3,000人)を含めてもわずかに改善されて1.98に留まり、データサイズが主な問題ではないことが示唆された。
- 学習データを1,000件に減らした場合、RMSEが2.1に上昇するなど、忠実度の低下が顕著に見られたが、正確なミミックの主な障壁はデータの不足ではなく、特徴の欠落であると考えられた。
- 線形ミミックモデルがCOMPAS、シカゴ警察、ストップアンドフレスクの複数のモデルでiGAMとほぼ同等の性能を示したため、ブラックボックスモデルの関数形が単純である可能性が示唆された。
- 保護された特徴(例:人種)を入力に含めない場合でも、バイアスは相関する特徴を通じて学習され、検出が難しくなることが明らかになった。
- 監査プロセスに保護された特徴を含めることで、それらが入力に使われなくてもバイアスを検出可能であり、ミミックモデルが隠れたバイアス伝搬を明らかにできることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。