QUICK REVIEW

[論文レビュー] Training Well-Generalizing Classifiers for Fairness Metrics and Other Data-Dependent Constraints

Andrew Cotter, Maya R. Gupta|arXiv (Cornell University)|Jun 29, 2018

Explainable Artificial Intelligence (XAI)被引用数 49

ひとこと要約

本論文は、データ依存の制約（例：公正性指標）を持つ分類器を学習するための2データセット、代理ラグランジュ最適化アプローチを提案し、未知データに対してより一般化する。理論的な一般化境界と実践的なアルゴリズムを提供し、実験で検証されている。

ABSTRACT

Classifiers can be trained with data-dependent constraints to satisfy fairness goals, reduce churn, achieve a targeted false positive rate, or other policy goals. We study the generalization performance for such constrained optimization problems, in terms of how well the constraints are satisfied at evaluation time, given that they are satisfied at training time. To improve generalization performance, we frame the problem as a two-player game where one player optimizes the model parameters on a training dataset, and the other player enforces the constraints on an independent validation dataset. We build on recent work in two-player constrained optimization to show that if one uses this two-dataset approach, then constraint generalization can be significantly improved. As we illustrate experimentally, this approach works not only in theory, but also in practice.

研究の動機と目的

公正性や方針主導の目標など、データ依存の制約を伴う分類器の訓練を動機づける。
モデルの複雑さに依存せず、制約の一般化を改善する2データセットフレームワークを開発する。
2データセット設定の下で、最適性、実現可能性、および制約の一般化に関する理論的境界を提供する。
収束と一般化保証を備えたアルゴリズム（オラクルベースと勾配ベース）を導入する。
訓練データと検証データを分離することが、実践的に制約の一般化を改善することを実証的に示す。

提案手法

問題を2人のプレイヤーのゲームとしてモデル化する。1人目は訓練データでモデルパラメータを最適化し、もう1人は検証セットで制約を適用する。
thetaプレイヤーには代理制約損失を用いた代理ラグランジ形式を、lambdaプレイヤーには元の制約損失を用いる。
学習に用いる証拠と制約執行を分離するため、S(train)をtheta最適化に、S(val)をlambda最適化に用いる2データセット手法を採用する。
ほぼ平衡解を見つけるオラクルベースのアルゴリズムを提供する。
強凸性の仮定の下で、離散化を避け実用的である勾配ベースのアルゴリズムを提供する。
制約の一般化がモデルの複雑さではなく検証セットに依存することを示す一般化境界を導出する。

実験結果

リサーチクエスチョン

RQ1制約付き最適化フレームワーク内で学習された場合、データ依存の制約は訓練から評価時にどの程度一般化するか。
RQ2訓練と制約執行の証拠を2つの独立したデータセットに分離することで、モデルの複雑さに依存せず制約の一般化を改善できるか。
RQ32データセットの代理ラグランジアプローチにおける理論的な最適性、実現可能性、および一般化保証は何か。
RQ4オラクルベースと勾配ベースのアルゴリズムは、ほぼ最適性、ほぼ実現可能性、良好な制約一般化を達成する上でどのように性能を示すか。
RQ5経験的結果は、公正性など他のデータ依存制約の一般化を2データセット手法が改善することを裏付けるか。

主な発見

2データセット代理ラグランジアンフレームワークは、1データセット手法と比較して制約の一般化を大幅に改善できる。
離散化されたオラクルベース手法には、訓練と検証の一般化誤差に結びつく最適性と実現可能性の証明可能な境界がある。
強凸性を持つ勾配ベースのアルゴリズムの下では、ほぼ最適性とほぼ実現可能性の保証も同様に成り立ち、実装可能性も保たれる。
検証セットでの制約一般化は、モデルの複雑さに独立して境界付け可能であり、従来の関数クラスの複雑さに結びつく境界とは対照的である。
実験結果は、2データセット手法が実践で制約一般化を向上させ、理論だけが保証するものを超えることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。