[論文レビュー] Unseen Class Discovery in Open-world Classification
論文は、見たクラスの知識を用いて、拒否されたオープンワールドサンプルの中から未検知クラスを検出・クラスタリングする階層的クラスタリングを、学習済みの同一/異なるペア距離によって導くJoint Open Classification Network (OCN) および Pairwise Classification Network (PCN) を提案します。
This paper concerns open-world classification, where the classifier not only needs to classify test examples into seen classes that have appeared in training but also reject examples from unseen or novel classes that have not appeared in training. Specifically, this paper focuses on discovering the hidden unseen classes of the rejected examples. Clearly, without prior knowledge this is difficult. However, we do have the data from the seen training classes, which can tell us what kind of similarity/difference is expected for examples from the same class or from different classes. It is reasonable to assume that this knowledge can be transferred to the rejected examples and used to discover the hidden unseen classes in them. This paper aims to solve this problem. It first proposes a joint open classification model with a sub-model for classifying whether a pair of examples belongs to the same or different classes. This sub-model can serve as a distance function for clustering to discover the hidden classes of the rejected examples. Experimental results show that the proposed model is highly promising.
研究の動機と目的
- トレーニング中に見られなかった未見クラスを含むテストデータに対応するオープンワールド分類を扱う。
- オープン分類器からの拒否サンプルの中で、手作業ラベル付けを要せず、隠れた未見クラスの発見を可能にする。
- Seenクラスから学習した類似性知識を未見クラスへ転移させ、クラスタリングを指導する。
提案手法
- OCNとPCNからなる共有表現を持つジョイントモデルを訓練する。
- OCNは見られていないクラスに対する拒否を伴う標準的なオープン分類を、1対多のシグモイド出力(DOCベース)で実施する。
- PCNは2つの同一CNNブランチを用いて、サンプル対の同一/異なるの二値分類子を学習する。
- 階層的クラスタリング(完全連結法)はPCNの距離をクラスタリング指標として用い、未見クラスのクラスタを発見する。
- オートエンコーダーを並行して訓練し、教師なし表現を提供するとともに、_seenクラスへの過剰適合を防ぐ。
- クラスタリングの停止基準を決定する検証ベースの閾値thetaを用い、未見クラスの正しい数を確保する。
- 訓練データ: (i) OCN用のオープンクラス分類データ、(ii) PCN用のSeen-Seenペア、(iii) オートエンコーダ用のラベルなしデータ;損失L_OCN、L_PCN、L_aeを共同最適化する。
実験結果
リサーチクエスチョン
- RQ1オープンワールド分類器は未見クラスサンプルを拒否し、未見サンプルのクラスタリングに有効な距離関数を提供できるか?
- RQ2Seenクラスから学習した転移距離関数が階層的クラスタリングを指導し、隠れた未見クラスの数を明らかにできるか?
- RQ3OCN+PCN+HCの組み合わせパイプラインは、オープンワールド設定において未見クラスをどれだけうまく発見・クラスタリングできるか?
主な発見
- OCNはMNISTおよびEMNISTデータセットで、未見クラスサンプルを拒否する点でOpenMaxを一貫して上回る。
- PCNはSeenクラスのクラス内およびクラス間の類似性を未見クラス対へ転移し、Seen–Seen、Seen–Unseen、Unseen–Unseenのペアで合理的な精度を達成する。
- 未見クラス集合の真の数をほぼ回収できるほど、PCNを距離関数として用いたHCはMNISTおよびEMNISTの未見データセットで強力であり、拒否サンプルのノイズにも頑健である。
- Encoder+HCと比較して、PCN+HCは特にEMNISTでクラスタ数の推定精度が大幅に向上し、PCNによって学習される距離の利点を示す。
- 真のクラスタ数が分かる場合にはK-meansがクラスタ品質を高められるが、クラスタ数を推定することはできない。一方でPCN+HCはクラスタ数を推定し、その後K-meansでクラスタを refine できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。