QUICK REVIEW

[論文レビュー] Deep Co-Training for Semi-Supervised Image Recognition

Siyuan Qiao, Wei Shen|arXiv (Cornell University)|Mar 15, 2018

Adversarial Robustness in Machine Learning参考文献 41被引用数 26

ひとこと要約

本論文は、複数のニューラルネットワークを補完的ビューとして訓練することで、コ・トレーニングフレームワークをディープラーニングに拡張する半教師あり画像認識手法であるDeep Co-Training (DCT)を提案する。敵対的例を用いてビューの多様性を強制することで、モデルの崩壊を防ぎ、SVHN、CIFAR-10/100、ImageNetにおいて、先行する最先端手法を大きく上回る精度を達成する。

ABSTRACT

In this paper, we study the problem of semi-supervised image recognition, which is to learn classifiers using both labeled and unlabeled images. We present Deep Co-Training, a deep learning based method inspired by the Co-Training framework. The original Co-Training learns two classifiers on two views which are data from different sources that describe the same instances. To extend this concept to deep learning, Deep Co-Training trains multiple deep neural networks to be the different views and exploits adversarial examples to encourage view difference, in order to prevent the networks from collapsing into each other. As a result, the co-trained networks provide different and complementary information about the data, which is necessary for the Co-Training framework to achieve good results. We test our method on SVHN, CIFAR-10/100 and ImageNet datasets, and our method outperforms the previous state-of-the-art methods by a large margin.

研究の動機と目的

コ・トレーニングフレームワークをディープラーニングに拡張し、半教師あり画像認識を実現すること。
二重ビュー学習におけるモデルの崩壊問題（ネットワークが同一の予測に収束すること）を解決すること。
複数のディープネットワークがラベルなしデータに対して補完的かつ多様な予測を提供することを保証すること。
コ・トレーニングの仮定とビューの差異制約を組み合わせた、スケーラブルでエンドツーエンド微分可能な手法を開発すること。
ImageNetを含むベンチマークデータセットで最先端の性能を示すこと、ここで先行手法は結果を報告していない。

提案手法

複数のディープニューラルネットワークを別々のビューとして訓練し、同じラベル付きデータを異なるデータオーグメンテーションを用いて学習する。
ラベルなしデータにおける二つのネットワークの予測の間のジェンセン・ショーナン発散を最小化することで、コ・トレーニング仮定を強制する。
モデルの崩壊を防ぐために、一方のネットワークから生成された敵対的例に対して、各ネットワークが耐性を持つように訓練するというビュー差異制約を導入する。
敵対的例を用いることで、二つのネットワークが異なる予測を下さざるを得ないデータ分布が作られ、補完的学習が保証される。
損失関数は、ラベル付きデータにおける教師あり損失と、ラベルなしデータにおける一貫性と多様性を促進するコ・トレーニング損失を組み合わせる。
2、4、8ビューのマルチビュー設定にも拡張可能であり、スケーラビリティと性能を維持する。

実験結果

リサーチクエスチョン

RQ1コ・トレーニングフレームワークは、ディープニューラルネットワークを用いた半教師あり画像認識に効果的に拡張可能か？
RQ2ディープニューラルネットワークがコ・トレーニング中に同一の予測に収束するのを防ぐにはどうすればよいか？
RQ3敵対的例は、コ・トレーニングにおけるビューの多様性を強制し、一般化性能を向上させるメカニズムとして機能できるか？
RQ4提案手法は、標準ベンチマーク（ImageNetを含む）で最先端の性能を達成できるか？
RQ5マルチビューのコ・トレーニングにおいて、ビュー数の増加に伴うスケーリング特性はいかがなが？

主な発見

Deep Co-Trainingは、SVHN、CIFAR-10、CIFAR-100において、先行する最先端手法を大きく上回る性能を達成する。
ImageNetにおいても顕著な精度向上を達成し、ここでは多くの先行半教師あり手法が結果を報告していないベンチマークである。
ビュー差異を強制するための敵対的例の使用は、モデルの崩壊を低減し、一般化性能を向上させる。
二重ビューのDCT手法は、2、4、8ビューの設定においても強力な性能を発揮し、スケーラビリティを示している。
複数のデータセットにわたり一貫した向上が確認され、コ・トレーニングと敵対的正則化を組み合わせることの有効性が裏付けられた。
アブレーションスタディにより、ビュー差異制約が性能に不可欠であることが確認され、これを除去するとモデルの崩壊が生じ、精度が低下する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。