QUICK REVIEW

[論文レビュー] Clusterability as an Alternative to Anchor Points When Learning with Noisy Labels

Zhaowei Zhu, Yiwen Song|arXiv (Cornell University)|Feb 10, 2021

Machine Learning and Data Classification参考文献 50被引用数 22

ひとこと要約

本論文は、アンカーポイントに依存せずに、特徴量のクラスタビリティ（各サンプルおよびその2つの最近傍点が同じ真のクラスに属する）を活用することで、ラベルノイズの遷移行列を推定する新規手法を提案する。隣接するサンプル間の最大3次までのラベル整合性を用いることで、アンカーベース手法よりも顕著に優れたサンプル効率を達成し、CIFAR-10/100およびClothing1Mで合成的および人間レベルのノイズに対して検証された。

ABSTRACT

The label noise transition matrix, characterizing the probabilities of a training instance being wrongly annotated, is crucial to designing popular solutions to learning with noisy labels. Existing works heavily rely on finding "anchor points" or their approximates, defined as instances belonging to a particular class almost surely. Nonetheless, finding anchor points remains a non-trivial task, and the estimation accuracy is also often throttled by the number of available anchor points. In this paper, we propose an alternative option to the above task. Our main contribution is the discovery of an efficient estimation procedure based on a clusterability condition. We prove that with clusterable representations of features, using up to third-order consensuses of noisy labels among neighbor representations is sufficient to estimate a unique transition matrix. Compared with methods using anchor points, our approach uses substantially more instances and benefits from a much better sample complexity. We demonstrate the estimation accuracy and advantages of our estimates using both synthetic noisy labels (on CIFAR-10/100) and real human-level noisy labels (on Clothing1M and our self-collected human-annotated CIFAR-10). Our code and human-level noisy CIFAR-10 labels are available at https://github.com/UCSC-REAL/HOC.

研究の動機と目的

アンカーポイントに基づく手法が、利用可能なアンカーポイント数に敏感で、低いサンプル複雑性を示すという限界を是正すること。
深層特徴表現のクラスタビリティを活用することで、アンカーポイントの代替として柔軟かつスケーラブルな手法を開発すること。
隣接サンプル間の高次ラベル整合性（最大3次まで）が、クラスタビリティのもとで真の遷移行列を一意かつ正確に同定できることを示すこと。
グローバルおよびローカルなノイズ設定に適用可能な、高速で一般化可能な遷移行列推定に適した実用的でオープンソースのツールを提供すること。
将来の実世界のラベルノイズに関する研究を支援するため、人間がアノテートしたノイズありCIFAR-10のデータセットを公開すること。

提案手法

本手法は、クラスタビリティ条件に依存する：特徴空間における各サンプルおよびその2つの最近傍点が同じ真のクラスに属する。
各サンプルとその2-NN近傍点の間の1次、2次、3次ラベル整合性を分析することで、遷移行列を推定する。
ラベル整合性の式をハダマード積および行列積を含む行列式に変換し、遷移行列に対する制約を導出する。
非特異性および情報性の仮定のもとで、最大3次までの整合性を用いることで、真の遷移行列を一意に特定できることを証明する。
標準的な学習パイプライン（例：フォワード損失補正）と統合可能な、軽量でプラグイン可能な推定器として実装する。
グローバルおよびローカルな遷移行列推定をサポートし、インスタンス依存ノイズに適応可能である。

実験結果

リサーチクエスチョン

RQ1アンカーポイントに依存せずに、ラベルノイズの遷移行列を正確に推定できるか？
RQ2特徴量のクラスタビリティが、一意でサンプル効率の良い遷移行列推定を可能にするか？
RQ3隣接サンプル間の高次ラベル整合性（最大3次まで）が、真の遷移行列を一意に同定できるか？
RQ4合成的および実世界のノイズラベルにおいて、提案手法はアンカーベース手法に比べて推定精度と一般化性能に優れているか？
RQ5本手法は、ローカルでインスタンス依存ノイズ設定に柔軟に拡張可能か？

主な発見

提案されたHOC推定器は、人間がアノテートしたラベルノイズを伴うCIFAR-10で、グローバル遷移行列推定誤差が0.097に達し、ベースライン手法を上回った。
人間レベルのノイズを伴うCIFAR-10では、ローカル遷移行列推定の平均誤差が0.110 ± 0.027であり、ロバストネスとスケーラビリティを示した。
CIFAR-10に20％のインスタンス依存ノイズを適用した場合、2-NNタプルの87％以上が妥当（同じ真のクラスに属する）であり、クラスタビリティ仮定を支持した。
データセットサイズを50,000から5,000に削減しても、2-NNタプルの妥当性が高く維持され、安定性とスケーラビリティを示した。
CIFAR-100に40％のノイズを適用した場合でも、HOCローカル推定器は他の手法を上回ったが、遷移行列の次元が非常に高く（10,000パラメータ）、依然として高い次元性に挑戦した。
理論的証明により、標準的な仮定のもとで、3次までの整合性が真の遷移行列を一意に特定するのに十分であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。