[論文レビュー] Automated Test Generation to Detect Individual Discrimination in AI Models
本稿では、局所解釈可能性(例:LIME)を活用して、保護属性(例:性別、人種)が異なるのみの2名の個人が異なる意思決定を受けるという、AIモデルにおける個別差別の系統的同定を目的としたブラックボックス型、記号実行ベースのテスト生成手法を提案する。局所解誉者からの線形近似を経路制約として用いることで、状態技術のランダムテストと比較してベンチマーク全体で3.72倍も多くの差別的インスタンスを同定する、標的化されたテストケースを生成する。
Dependability on AI models is of utmost importance to ensure full acceptance of the AI systems. One of the key aspects of the dependable AI system is to ensure that all its decisions are fair and not biased towards any individual. In this paper, we address the problem of detecting whether a model has an individual discrimination. Such a discrimination exists when two individuals who differ only in the values of their protected attributes (such as, gender/race) while the values of their non-protected ones are exactly the same, get different decisions. Measuring individual discrimination requires an exhaustive testing, which is infeasible for a non-trivial system. In this paper, we present an automated technique to generate test inputs, which is geared towards finding individual discrimination. Our technique combines the well-known technique called symbolic execution along with the local explainability for generation of effective test cases. Our experimental results clearly demonstrate that our technique produces 3.72 times more successful test cases than the existing state-of-the-art across all our chosen benchmarks.
研究の動機と目的
- 保護属性(例:性別、人種)が異なるのみの同一個人が異なる意思決定を受けるという、AIモデルにおける個別差別の検出という重要な課題に対処すること。
- THEMISのような既存のアプローチにおけるランダムテスト生成の限界を克服し、差別的入力組み合わせを系統的に探索できること。
- 深層ニューラルネットワークのような複雑で解釈不能なモデルに適用可能な、スケーラブルなブラックボックス手法を開発すること。
- 記号実行と局所解釈性を統合することで、経路制約付きの入力生成を実現し、テストケースの有効性を向上させること。
- 初期障害検出後の指向的探索が、単なる非指向的探索に比べて差別的ケースの発見を著しく増加させることを示すこと。
提案手法
- 与えられた入力に対して局所解説者(例:LIME)を用いてモデル意思決定の線形近似を生成し、これを記号実行におけるサーヴィレート経路として扱う。
- 線形モデルの係数を制約として扱い、意思決定を切り替える入力変異を系統的に探索できるように記号実行を誘導する。
- 制約解決を伴う記号実行を適用し、局所解釈から導出された制約を反復的に否定または変更することで、新たなテスト入力を生成する。
- 訓練データを初期探索のためのシードとして用いる非指向的記号探索を優先し、差別的ケースが発見された段階で指向的探索に移行する。
- 局所解説者から得られる高信頼性で意思決定に関連する制約のみを選択することで、探索を最適化し、不要な切り替えを減らし、効率を向上させる。
- 非指向的および指向的探索戦略を統合:非指向的探索で初期障害検出を実施し、指向的探索で差別的入力パターンの深層的探索を実現する。
実験結果
リサーチクエスチョン
- RQ1局所解釈性で誘導される記号実行は、ブラックボックスAIモデルにおける個別差別の検出に有効に機能するか?
- RQ2記号実行と局所解釈性の組み合わせは、差別的行動の同定において、なぜランダムテスト生成を上回るのか?
- RQ3初期障害検出後の指向的探索は、単なる非指向的探索に比べて、どの程度差別的入力組み合わせの発見を向上させるのか?
- RQ4訓練データを記号実行の初期段階におけるシードとして用いることは、差別的検出においてどの程度有効か?
- RQ5提案手法は、白ボックスアクセスを必要としないが、現実世界の非自明なモデル(例:深層ニューラルネットワーク)へスケーラブルに適用可能か?
主な発見
- 提案手法は、すべてのベンチマークで、最先端手法(THEMIS)と比較して3.72倍の成功するテストケースを生成した。
- 初期障害検出後の指向的探索は、非指向的探索のみに比べて、特にGerman-ageやCarのような複雑なモデルで顕著に多くの差別的インスタンスを同定した。
- 訓練データシードを用いた非指向的記号探索では、一部のベンチマーク(例:German-age, Census)で4〜7件のテストケースしか生成しなかった。これは、初期障害検出なしでは述語切り替えに対する信頼性が低いことを示している。
- Carベンチマークでは、非指向的探索のみで228件中179件の成功テストケースが生成された。これは、初期シードの質と制約の信頼性が性能に大きく影響することを示している。
- 局所解説者の統合により、深層ニューラルネットワークのような解釈不能なモデルに対する効果的なブラックボックステストが可能となり、専用のソルバーやモデル変換の必要がなくなった。
- 局所解説者から得られる高信頼性・意思決定関連の制約に依存することで、不要な制約切り替えが減少し、テストケースの関連性と効率が向上した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。