Skip to main content
QUICK REVIEW

[論文レビュー] Fair and Diverse DPP-based Data Summarization

L. Elisa Celis, Vijay Keswani|arXiv (Cornell University)|Feb 12, 2018
Topic Modeling被引用数 28
ひとこと要約

本稿では、感度属性における公平性制約を伴う決定的ポイントプロセス(DPP)を用いて、多様で公平なサブセットを高速かつ証明可能に正確にサンプリングするアルゴリズムを提案する。分割DPPフレームワークを導入し、高い多様性を維持しながら、割合的または等比的表現を保証する。自然な$β$-バランス条​​件の下で理論的保証が得られ、実験的検証により公平性制約下でも多様性の損失が最小限に抑えられることが示された。

ABSTRACT

Sampling methods that choose a subset of the data proportional to its diversity in the feature space are popular for data summarization. However, recent studies have noted the occurrence of bias (under- or over-representation of a certain gender or race) in such data summarization methods. In this paper we initiate a study of the problem of outputting a diverse and fair summary of a given dataset. We work with a well-studied determinantal measure of diversity and corresponding distributions (DPPs) and present a framework that allows us to incorporate a general class of fairness constraints into such distributions. Coming up with efficient algorithms to sample from these constrained determinantal distributions, however, suffers from a complexity barrier and we present a fast sampler that is provably good when the input vectors satisfy a natural property. Our experimental results on a real-world and an image dataset show that the diversity of the samples produced by adding fairness constraints is not too far from the unconstrained case, and we also provide a theoretical explanation of it.

研究の動機と目的

  • DPPベースのデータ要約において、多様なサブセットが性別や人種などの感度属性を過小または過剰に表現するという公平性の欠如に対処すること。
  • 一般的な公平性制約(例えば、割合的または等比的表現)をDPPに組み込みつつ多様性を維持するフレームワークの開発。
  • 一般に計算困難とされる分割DPPのための効率的なサンプリングアルゴリズムの設計を、自然なデータ条件($\beta$-バランス)の下で行うこと。
  • 公平性と多様性のトレードオフを理論的および実験的に分析し、制約付きと非制約付き分布間のKLダイバージェンスを用いて「公平性のコスト」を定量化すること。

提案手法

  • 各感度属性グループからのサンプル数に制約を課すことで公平性を形式化し、分割DPPからのサンプリング問題として定式化する。
  • $\beta$-バランス条​​件の下で、真の分割DPP分布を近似する線形時間のサンプリングアルゴリズムを導入する。この条件は、データ行列においてどのグループもあまりに小さくまたは不均衡でないことを保証する。
  • 選択済みベクトルに直交投影した後の残差ノルムが最大となるようにベクトルを選択する、グリーディで射影に基づくサンプリング戦略を用いることで、多様性を維持する。
  • サンプリング中にDPP確率スコアを効率的に計算・維持するために、再帰的行列式分解技術を適用する。
  • Gram行列の特性多項式を用いて、与えられたサイズのサブセット全体における多様性スコアの合計を、主小行列の和と関連付ける。
  • データが$\beta$-バランス条​​件を満たしている限り、アルゴリズムが非ゼロの行列式(つまり線形独立なベクトル)を持つ有効なサンプルを出力することを証明する。

実験結果

リサーチクエスチョン

  • RQ1DPPベースのサンプリング手法を、多様性を損なわず感度属性の公平な表現を保証できるように適合させることは可能か?
  • RQ2公平性制約付きDPPからのサンプリングの計算複雑度は何か? そして、効率的に近似可能か?
  • RQ3公平性制約を課した場合、出力サブセットの多様性はどの程度劣化するのか? また、その劣化は理論的に境界づけられるか?
  • RQ4どのようなデータ条件の下で、提案されたアルゴリズムが強力な近似保証を維持するか?
  • RQ5制約付きと非制約付きDPP分布間のKLダイバージェンスとして測定される「公平性のコスト」は何か?

主な発見

  • 提案されたアルゴリズムは線形時間で実行され、データ行列が$\beta$-バランス条​​件を満たす場合には、公平性制約付きDPP分布からの証明可能に良いサンプルを提供する。
  • ランダムなデータ行列は、高確率で$\beta$-バランス条​​件を満たすことが示され、この手法の広範な適用可能性が裏付けられる。
  • 公平性のコスト(制約付きと非制約付きDPP分布間のKLダイバージェンス)は理論的に境界づけられており、妥当なデータ仮定のもとで低く保たれる。
  • Adultデータセットおよびキュレートされた画像データセットにおける実験結果から、偏りの強い入力データであっても、公平性制約によって多様性がわずかに低下するにとどまり、その影響が最小限であることが示された。
  • 入力分布とは著しく異なる感度属性の希望される割合であっても、アルゴリズムは高い多様性を維持する。
  • 理論的および実験的結果から、DPPベースの要約において、公平性と多様性は本質的に対立するものではないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。