Skip to main content
QUICK REVIEW

[論文レビュー] OpenMatch: Open-set Consistency Regularization for Semi-supervised Learning with Outliers

Kuniaki Saito, Donghyun Kim|arXiv (Cornell University)|May 28, 2021
Domain Adaptation and Few-Shot Learning参考文献 45被引用数 23
ひとこと要約

OpenMatchは、一対多(OVA)外れ値検出とソフト一貫性正則化を組み合わせることで、ラベルなし外れ値に対してより頑健なオープンセット半教師あり学習フレームワークを提案する。OVA分類器を用いてインライナーと外れ値を区別し、新規のオープンセットソフト一貫性損失を適用することで、CIFAR10でラベル付き例300例のみで誤差率10.4%まで低下させ、未学習の外れ値を検出する分野で完全教師ありモデルを上回る性能を達成した。

ABSTRACT

Semi-supervised learning (SSL) is an effective means to leverage unlabeled data to improve a model's performance. Typical SSL methods like FixMatch assume that labeled and unlabeled data share the same label space. However, in practice, unlabeled data can contain categories unseen in the labeled set, i.e., outliers, which can significantly harm the performance of SSL algorithms. To address this problem, we propose a novel Open-set Semi-Supervised Learning (OSSL) approach called OpenMatch. Learning representations of inliers while rejecting outliers is essential for the success of OSSL. To this end, OpenMatch unifies FixMatch with novelty detection based on one-vs-all (OVA) classifiers. The OVA-classifier outputs the confidence score of a sample being an inlier, providing a threshold to detect outliers. Another key contribution is an open-set soft-consistency regularization loss, which enhances the smoothness of the OVA-classifier with respect to input transformations and greatly improves outlier detection. OpenMatch achieves state-of-the-art performance on three datasets, and even outperforms a fully supervised model in detecting outliers unseen in unlabeled data on CIFAR10.

研究の動機と目的

  • ラベル付きデータとラベルなしデータのラベル空間が同一であると仮定する標準的な半教師あり学習(SSL)手法の制限に対処すること。これは、ラベルなしデータに学習済みのラベルにない新しいカテゴリ(外れ値)が含まれる場合に失敗する。
  • ラベル付き外れ値データを必要とせず、インライナーを正しく分類するとともに外れ値を検出し拒否できる、頑健なオープンセット半教師あり学習(OSSL)フレームワークを開発すること。
  • 新規のソフト一貫性正則化損失を用いて、滑らかで一貫性のある表現を学習することで、OSSLにおける外れ値検出性能を向上させること。
  • FixMatchとOVAベースの新奇性検出の長所を統合した、エンドツーエンドのフレームワークを構築し、インライナーの分類精度を高く保ちつつ外れ値検出性能を優れたものとすること。

提案手法

  • 各既知のクラスに対して一対多(OVA)分類器を導入し、すべてのOVA分類器が拒否する場合にのみサンプルを外れ値と分類することで、教師なしの外れ値検出を可能にする。
  • 同じ入力の2つの増幅ビューにおける外れ値検出器のログティスの距離を最小化するオープンセットソフト一貫性正則化(SOCR)損失を提案し、外れ値検出関数の滑らかさを促進する。
  • FixMatchの一致学習を、OVA検出器によってインライナーと分類されたラベルなしサンプルにのみ適用することで、疑似ラベル付けが信頼性の高いサンプルに限定されるようにする。
  • OVAの信頼度スコアにしきい値を適用してインライナーと外れ値を区別し、Otsuのしきい値法のようなヒューリスティック手法に依存しない。
  • メインヘッドが分類を実行し、OVAヘッドが外れ値検出を実行するマルチヘッドアーキテクチャを採用し、共通の特徴エンコーダーを共有して両者を同時に学習する。
  • FixMatchの交差エントロピー損失、SOCR損失、およびOVA外れ値検出のための重み付き損失の組み合わせによりモデルを最適化し、インライナー分類と外れ値拒否の両方を共同で学習可能にする。

実験結果

リサーチクエスチョン

  • RQ1ラベルなしデータのラベル空間に、ラベル付きデータセットに存在しない新しいカテゴリ(外れ値)が含まれる場合、半教師あり学習フレームワークがその外れ値を効果的に検出し拒否できるか。
  • RQ2外れ値に該当するラベル付き例が存在しないため、疑似ラベル付けができないオープンセット設定において、一貫性正則化をどのように適合できるか。
  • RQ3OVAベースの外れ値検出とソフト一貫性正則化を組み合わせることで、既存のOSSL手法と比較してインライナー分類精度と外れ値検出性能の両方が向上するか。
  • RQ4限られたラベル付きデータと外れ値を含むノイズの多いラベルなしデータから学習したモデルが、未学習の外れ値カテゴリを検出する分野で完全教師ありモデルを上回れるか。

主な発見

  • CIFAR10でラベル付き例300例/クラスのみで、OpenMatchは誤差率10.4%を達成し、同条件で20.3%であった以前の最先端手法を大きく上回った。
  • ImageNet-30で訓練データの10%をラベル付きとして使用した場合、OpenMatchは平均正答率87.1%を達成し、FixMatch(83.0%)とMTC(74.2%)を上回った。
  • トレーニング時に未観測だった外れ値を検出する際、OpenMatchは完全教師ありモデルよりも3.4%高いAUROCを達成し、新しいカテゴリへの一般化性能が優れていることを示した。
  • 提案されたオープンセットソフト一貫性正則化(SOCR)損失は、データ増幅下でのOVA分類器出力の滑らかさを促進することで、外れ値検出性能を顕著に向上させた。
  • 外れ値がインライナーと視覚的に類似していても、またはラベルなし学習セットに存在しなくても、インライナー分類精度を高く保ちつつ外れ値を効果的に拒否できた。
  • アブレーションスタディの結果、OVA外れ値検出器とSOCR損失の両方が全体の性能向上に不可欠であることが確認され、それぞれが顕著な貢献を果たしていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。