Skip to main content
QUICK REVIEW

[論文レビュー] BREEDS: Benchmarks for Subpopulation Shift

Shibani Santurkar, Dimitris Tsipras|arXiv (Cornell University)|Aug 11, 2020
Domain Adaptation and Few-Shot Learning参考文献 71被引用数 19
ひとこと要約

この論文は、ImageNetのクラス階層を活用して制御可能で現実的な分布シフトを生成することにより、モデルの部分集団シフトに対するロバストネスを評価するベンチマークスイートBREEDSを紹介する。標準モデルが訓練時に見られなかった部分集団に対して顕著な精度低下を示すことが明らかになった。一部の訓練時ロバストネス手法はわずかな改善をもたらすが、完全にこの感受性を軽減することはできず、現在のロバストネス評価における重要なギャップを浮き彫りにしている。

ABSTRACT

We develop a methodology for assessing the robustness of models to subpopulation shift---specifically, their ability to generalize to novel data subpopulations that were not observed during training. Our approach leverages the class structure underlying existing datasets to control the data subpopulations that comprise the training and test distributions. This enables us to synthesize realistic distribution shifts whose sources can be precisely controlled and characterized, within existing large-scale datasets. Applying this methodology to the ImageNet dataset, we create a suite of subpopulation shift benchmarks of varying granularity. We then validate that the corresponding shifts are tractable by obtaining human baselines for them. Finally, we utilize these benchmarks to measure the sensitivity of standard model architectures as well as the effectiveness of off-the-shelf train-time robustness interventions. Code and data available at https://github.com/MadryLab/BREEDS-Benchmarks .

研究の動機と目的

  • 訓練時に存在しなかったデータの部分集団への一般化を評価するベンチマークの不足に対処すること。
  • ImageNetのような大規模な既存データセット内で、制御可能で現実的な部分集団シフトを可能にする手法を構築すること。
  • 人間ベースラインを用いて、これらのシフトの現実性と取り扱いやすさを検証すること。
  • 標準モデルおよび市販のロバストネス対策が部分集団シフト下でどのように振る舞うかを評価すること。
  • 現在のロバストネス技術が、この特定のタイプの分布シフトに対しては限定的な改善しかもたらさないことを示すこと。

提案手法

  • ImageNetのクラス階層(WordNet)を活用し、意味的に整合性のある部分集団としてスーパークラスを定義する。
  • 訓練用とテスト用の部分集団を排他的にすることで、部分集団シフトを構築する(例:ポメラニアンとテリアで訓練し、ダルメシアンでテスト)。
  • 意味的に類似したクラスをグループ化することで、部分集団の視覚的整合性を保証する。
  • 人間の研究を実施し、シフトが意味的であり、非自明であることを検証し、ベンチマークが現実世界の一般化課題を的確に反映していることを確認する。
  • 標準モデルおよび訓練時ロバストネス対策(例:敵対的訓練、ノイズ増幅、スタイライズドデータ)を評価するためにベンチマークを適用する。
  • ターゲットドメインのデータで最終線形層を微調整し、ドメイン適応の可能性を評価する。

実験結果

リサーチクエスチョン

  • RQ1訓練時に露出されていなくても、視覚的・意味的に整合性のある部分集団に対して、標準モデルはどれほど一般化できるか?
  • RQ2データの損傷や敵対的例を想定して開発された既存のロバストネス訓練技術は、部分集団シフトへの一般化を改善できるか?
  • RQ3ターゲットドメインのデータで最終層を微調整することで、部分集団シフトに起因する性能低下はどれほど回復できるか?
  • RQ4人間のパフォーマンスによって検証された場合、誘導された部分集団シフトは現実的で非自明なものとみなせるか?
  • RQ5元の分布におけるモデルの精度と、部分集団シフトに対するロバストネスの相関関係はどの程度か?

主な発見

  • ImageNetで訓練されたモデルは、部分集団シフトベンチマークで顕著な性能低下を示し、特にNon-living-26ベンチマークでは、元の分布での90%を超える精度が、ターゲット分布では最低41.8%まで低下する。
  • 人間のパフォーマンスは高い(例:Living-17では85.96%)ため、モデルにとっては非自明なシフトだが、人間にとってはそうではないことが示され、ロバストネスのギャップが顕著に浮き彫りになった。
  • 元の分布での精度が高いモデルほど、部分集団シフトに対してよりロバストである傾向があるため、ドメイン内性能とドメイン外一般化の間には相関があると考えられる。
  • 敵対的訓練やその他のデータ増幅技術(例:消去ノイズ、ガウスノイズ)は、ロバストネスにわずかだが非自明な改善をもたらすが、元の分布の精度を低下させる場合が多い。
  • ターゲットドメインのデータで最終線形層を再訓練することで一部のパフォーマンスが回復するが、元の精度までは回復せず、特徴レベルの分布シフトが継続していることが示された。
  • 現在のロバストネス対策では、部分集団シフトに対する感受性を顕著に軽減できるものはなく、BREEDSが既存のものとは異なり、困難で独自のロバストネスベンチマークを提供していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。