QUICK REVIEW

[論文レビュー] FINE Samples for Learning with Noisy Labels

Taehyeon Kim, Jongwoo Ko|arXiv (Cornell University)|Feb 23, 2021

Machine Learning and Data Classification参考文献 51被引用数 38

ひとこと要約

FINEは、派生を必要としない検出器を導入し、潜在表現とクラスごとのGram行列の最初の固有ベクトルとの整合性を検査することでラベルノイズをフィルタリングします。これにより、堅牢なサンプル選択、SSL、および堅牢な損失との協調をベンチマーク全体で実現します。

ABSTRACT

Modern deep neural networks (DNNs) become frail when the datasets contain noisy (incorrect) class labels. Robust techniques in the presence of noisy labels can be categorized into two folds: developing noise-robust functions or using noise-cleansing methods by detecting the noisy data. Recently, noise-cleansing methods have been considered as the most competitive noisy-label learning algorithms. Despite their success, their noisy label detectors are often based on heuristics more than a theory, requiring a robust classifier to predict the noisy data with loss values. In this paper, we propose a novel detector for filtering label noise. Unlike most existing methods, we focus on each data's latent representation dynamics and measure the alignment between the latent distribution and each representation using the eigendecomposition of the data gram matrix. Our framework, coined as filtering noisy instances via their eigenvectors (FINE), provides a robust detector with derivative-free simple methods having theoretical guarantees. Under our framework, we propose three applications of the FINE: sample-selection approach, semi-supervised learning approach, and collaboration with noise-robust loss functions. Experimental results show that the proposed methods consistently outperform corresponding baselines for all three applications on various benchmark datasets.

研究の動機と目的

従来の損失ベースの検出器が分類器のバイアスのために失敗するノイズ付きラベルを含むデータセットから、堅牢な学習を動機づける。
後方推定に依らず、潜在表現の幾何に依拠するノイズ検出器を開発する。
ノイズのあるインスタンスをフィルタリングするための理論的に根拠のあるフレームワークを提供する。
検出器を3つのLNLアプリケーション（サンプル選択、半教師あり学習、ノイズ耐性損失との協調）で実証する。

提案手法

プレロジット表現からクラスごとにGram行列を構築し、固有分解を行って各クラスの最初の固有ベクトルを得る。
データ点の整合性を、そのクラスの最初の固有ベクトルとの掛け算の二乗和（内積の二乗）として定義し、整合性分布をGaussian Mixture Modelでモデル化してクリーンサンプルとノイズサンプルを分離する。
ノイズデータをフィルタリングするには、整合スコアがGMMのクリーン成分に位置するサンプルを選択する。ノイズレートの推定を必要としない。
ラベルノイズ下で推定されたクリーン固有ベクトルの摂動に関する理論的界限（定理1）を提供し、摂動をノイズ比とクリーン/ノイズクラス方向間の角度に結びつける。
データの小さなサブセットで固有ベクトルを近似することによるスケーラビリティを示し、高い精度を維持する。
FINEを3つのLNLパラダイムに統合する：(1) サンプル選択（既存の検出器を置換）、(2) SSL（損失ベースのフィルタリングを置換）、(3) ノイズ耐性損失との協調。

実験結果

リサーチクエスチョン

RQ1潜在空間の固有ベクトル構造は、ノイズ付きラベルのためのノイズレートを推定せずに、頑健で微分を要しない検出器を提供できるか？
RQ2第一固有ベクトルへの整合性は、データセットやノイズパターンを横断してクリーンサンプルとノイズサンプルをどの程度うまく分離するか？
RQ3既存の検出器と比べて、サンプル選択、SSL、堅牢損失との協調に組み込んだFINEベースの検出器は性能を向上させるか？
RQ4現実的な仮定の下で、検出器の固有ベクトル整合とクリーンデータ識別を結びつける理論的保証は何か？

主な発見

FINEは、対称ノイズおよび非対称ノイズの複数設定において、CIFAR-10/100のサンプル選択タスクで競合ベースラインを一貫して上回る。
損失ベースのフィルタリングをFINEに置換することで、Co-teaching派生（F-Co-teaching）およびTopFilter/CRUSTベースラインと組み合わせた際に大きな利得が得られる。
SSLでは、FINE強化版DivideMix（F-DivideMix）がDivideMixより高いテスト精度を達成し、深刻なノイズ下で主要SSL手法と競合する。
ノイズ耐性損失（GCE、SCE、ELR）とのFINE指向の協調は、高ノイズ領域で一般化を改善する。
Clothing1Mでの実験は競合的な性能を示し、FINEが合成ベンチマークを超えた実世界適用性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。