QUICK REVIEW

[論文レビュー] Unsupervised Feature Learning by Cross-Level Discrimination between Instances and Groups

Xudong Wang, Ziwei Liu|arXiv (Cornell University)|Aug 9, 2020

Machine Learning and Data Classification参考文献 43被引用数 14

ひとこと要約

本論文は、高いインスタンス相関と長尾クラス分布を示す現実世界のデータにおける自己教師あり特徴学習の安定化を図るため、インスタンスとグループの間でクロスレベルの識別を提案する。局所的な引き寄せとグループ間の長距離の排斥を併用し、グループ化と識別を別々の特徴ブランチで分離することで、自己教師ありおよび半教師ありベンチマークで最先端の性能を達成し、不安定性や退化の問題を克服する。

ABSTRACT

Unsupervised feature learning has made great strides with invariant mapping and instance-level discrimination, as benchmarked by classification on common datasets. However, these datasets are curated to be distinctive and class-balanced, whereas naturally collected data could be highly correlated within the class (with repeats at the extreme) and long-tail distributed across classes. The natural grouping of instances conflicts with the fundamental assumption of instance-level discrimination. Contrastive feature learning is thus unstable without grouping, whereas grouping without contrastive feature learning is easily trapped into degeneracy. We propose to integrate grouping into instance-level discrimination, not by imposing group-level discrimination, but by imposing cross-level discrimination between instances and groups. Our key insight is that grouping results from not just attraction, but also repulsion. While invariant mapping is achieved by local attraction between augmented instances, instance similarity emerges from long-range repulsion against common instance groups. To further avoid the clash between grouping and discrimination objectives, we also impose them on separate features derived from the common feature. Our extensive experimentation demonstrates not only significant gain on datasets with high correlation and long-tail distributions, but also leading performance on multiple self-supervision and semi-supervision benchmarks, bringing unsupervised feature learning closer to real data applications.

研究の動機と目的

高インスタンス相関と長尾クラス分布を示す現実世界のデータにおける対照的特徴学習の不安定性を解消すること。
自己教師あり表現学習におけるグループ化目的とインスタンスレベルの識別との間の矛盾を解消すること。
グループ化ベースの手法における退化を防ぐために、グループ化と識別を目的を分離すること。
理想化されたクラスバランスの取れたベンチマークとは異なるデータセットにおける自己教師あり特徴学習の一般化を向上させること。
グループレベルの構造をインスタンスレベルの識別に統合するが、明示的なグループレベルの識別を課さないこと。

提案手法

自己増幅されたインスタンス間の局所的引き寄せと、共通のインスタンスグループに対する長距離の排斥を組み合わせたクロスレベル識別を導入する。
グループ化と識別を目的とする特徴空間を別々のブランチに分離することで、目的の衝突を回避する。
データの増幅に対して局所的特徴の一貫性を促進する不変写像を用いる。
共有されたグループ表現からの排斥を介してインスタンス類似度をモデル化し、グループ間の特徴の明確な差異を促進する。
識別ブランチでは対照的学習を、グループ化ブランチではクラスタリングを適用する。
共有されたバックボーン特徴を活用しつつ、グループ化と識別を別々の特徴ストリームで独立して適用する。

実験結果

リサーチクエスチョン

RQ1高インスタンス相関と長尾クラス分布を示すデータにおいて、自己教師あり特徴学習をどのように安定化できるか？
RQ2局所的引き寄せを超えて、インスタンスとグループ間の排斥が特徴識別をどのように向上させるか？
RQ3グループ化と識別を目的として分離することで、自己教師あり表現学習における退化を防げるか？
RQ4クロスレベル識別は、現実世界のデータにおいて、標準的なインスタンスレベルまたはグループレベルの対照的学習と比べてどのように異なるか？
RQ5提案手法は、自己教師ありおよび半教師ありベンチマークにどの程度一般化可能か？

主な発見

提案手法は、高インスタンス相関と長尾分布を示すデータセットで顕著な性能向上を達成した。
複数の自己教師ありベンチマークにおいて、標準的なインスタンスレベルの対照的学習およびグループレベルの手法を上回った。
半教師あり学習ベンチマークでも優れた性能を示し、強力な一般化能力を示した。
グループ化と識別を目的として分離することで、退化が効果的に防止され、訓練の安定性が向上した。
共通グループに対する長距離の排斥を統合することで、局所的不変性を超えた特徴の識別性が向上した。
理想化されたバランスの取れたデータセットとは異なる現実世界のデータ分布に対しても、良好な一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。