QUICK REVIEW

[論文レビュー] Characterising Bias in Compressed Models

Sara Hooker, Nyalleng Moorosi|arXiv (Cornell University)|Oct 6, 2020

Advanced Neural Network Applications参考文献 39被引用数 46

ひとこと要約

この論文は、剪定と量子化によるモデル圧縮が全体の精度を概ね保つ一方、難しい例の小さなサブセットでエラーを増やすことによりバイアスを増幅し、それを Compression Identified Exemplars (CIE) と呼ぶ人間を巻き込んだ監査ツールとして提案する。

ABSTRACT

The popularity and widespread use of pruning and quantization is driven by the severe resource constraints of deploying deep neural networks to environments with strict latency, memory and energy requirements. These techniques achieve high levels of compression with negligible impact on top-line metrics (top-1 and top-5 accuracy). However, overall accuracy hides disproportionately high errors on a small subset of examples; we call this subset Compression Identified Exemplars (CIE). We further establish that for CIE examples, compression amplifies existing algorithmic bias. Pruning disproportionately impacts performance on underrepresented features, which often coincides with considerations of fairness. Given that CIE is a relatively small subset but a great contributor of error in the model, we propose its use as a human-in-the-loop auditing tool to surface a tractable subset of the dataset for further inspection or annotation by a domain expert. We provide qualitative and quantitative support that CIE surfaces the most challenging examples in the data distribution for human-in-the-loop auditing.

研究の動機と目的

保護属性サブグループ全体で、剪定と量子化が予測バイアスと公正性にどのように影響するかを評価する。
性別および年齢属性に関して、圧縮モデルと非圧縮モデルの誤検出率(FPR)と誤否率(FNR)の差を定量化する。
ラベル非依存の監査ツールとして、Compression Identified Exemplars (CIE) の概念を導入・検証する。
保護属性ラベルなしで難易度の高い例を浮き彫りにする代替指標（Modal CIE および Taxicab CIE）を探索する。
データの高バイアス領域を検査するために CIE を活用した人間-in-the-loop の監査ワークフローを提案する。

提案手法

CelebA データセットで ResNet-18 を用い、金髪と非金髪の二値分類を行う。
訓練中に終端スパース性レベル t を {0.3,0.5,0.7,0.9,0.95,0.99} に剪定を適用し、推論時にマスクを固定する。
ポストトレーニングの8ビット量子化（ハイブリッド動的範囲と固定小数点）を適用し、ベースラインと比較する。
単一属性のサブグループ（Male、Young）および交差属性（Young Male）を用いて、Top-1 精度、FPR、FNR などの指標でサブグループの性能を評価する。
圧縮あり/なしのラベル予測が乖離する例を Compression Identified Exemplars (CIE) と定義する（Modal CIE および Taxicab CIE）。
統計的有意性を確保するため、圧縮レベルごとに30モデルで実験を繰り返す。

実験結果

リサーチクエスチョン

RQ1モデル圧縮は、過小表現される属性サブグループに対するアルゴリズム的バイアスを増幅するか。
RQ2剪定と量子化がサブグループ間で偽陽性率と偽陰性率をどのように変化させるか。
RQ3CIE（Modal および Taxicab）は、属性ラベルなしで監査に適した難易度の高い事例を浮き彫りにできるか。
RQ4CIE は、圧縮モデル・非圧縮モデルの両方にとって最も難しい例を示しているか。
RQ5CIE を用いた人間-in-the-loop のワークフローは、限られた注釈体制で圧縮モデルを効果的に監査できるか。

主な発見

削減率	Top 1	Modal CIEs の数	備考
0	94.73	-	基準（剪定なし）
0.3	94.75	555
0.5	94.81	638
0.7	94.44	990
0.9	94.07	3229
0.95	93.39	5057
0.99	90.98	8754

圧縮下でも全体の Top-1 精度は高水準を維持（例：基準 94.73%、90%剪定時 94.07%、95%剪定時 93.39%）。
圧縮は剪定レベルを問わず、過小表現サブグループに対する不均等な扱いを一貫して拡大する。
95%剪定時、女性の偽陽性率は基準に対して49.54%増加、男性の偽陽性は基準に対して6.32%増加。
より高い圧縮レベルは、代表性の低い属性、特に少数の交差属性グループの性能を悪化させる。
CIE 指標（Modal および Taxicab）は、圧縮下で精度が急落する小さく難しいデータ subset を特定する（特定閾値で Modal/Taxicab CIE の精度がそれぞれ 49.82% / 55.35%）。
CIE は過小表現属性に過度に偏り、保護属性ラベルを必要とせずに人間による監査に適した難易度の高い例を浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。