[論文レビュー] Unsupervised Meta-Learning For Few-Shot Image and Video Classification.
本稿では、ラベルなしデータから合成タスクを生成することで、ラベル付きメタトレーニングタスクを必要とせず、少量のラベルで画像および動画分類を可能にする非教師付きメタラーニングフレームワークUMTRAを提案する。Omniglotの5クラス1ショット学習においてMAMLの85%の精度を達成し、ラベル付きデータの必要数を24,005から5に削減した。
Few-shot or one-shot learning of classifiers for images or videos is an important next frontier in computer vision. The extreme paucity of training data means that the learning must start with a significant inductive bias towards the type of task to be learned. One way to acquire this is by meta-learning on tasks similar to the target task. However, if the meta-learning phase requires labeled data for a large number of tasks closely related to the target task, it not only increases the difficulty and cost, but also conceptually limits the approach to variations of well-understood domains. In this paper, we propose UMTRA, an algorithm that performs meta-learning on an unlabeled dataset in an unsupervised fashion, without putting any constraint on the classifier network architecture. The only requirements towards the dataset are: sufficient size, diversity and number of classes, and relevance of the domain to the one in the target task. Exploiting this information, UMTRA generates synthetic training tasks for the meta-learning phase. We evaluate UMTRA on few-shot and one-shot learning on both image and video domains. To the best of our knowledge, we are the first to evaluate meta-learning approaches on UCF-101. On the Omniglot and Mini-Imagenet few-shot learning benchmarks, UMTRA outperforms every tested approach based on unsupervised learning of representations, while alternating for the best performance with the recent CACTUs algorithm. Compared to supervised model-agnostic meta-learning approaches, UMTRA trades off some classification accuracy for a vast decrease in the number of labeled data needed. For instance, on the five-way one-shot classification on the Omniglot, we retain 85% of the accuracy of MAML, a recently proposed supervised meta-learning algorithm, while reducing the number of required labels from 24005 to 5.
研究の動機と目的
- 最小限のラベル付きデータで、少量学習および1ショット学習の画像および動画分類の課題に対処すること。
- ターゲットタスクのドメインに適した十分なサイズ・多様性・関連性を持つラベルなしデータ上で、非教師付きメタラーニングを可能にすることで、ラベル付きメタトレーニングタスクへの依存を排除すること。
- 任意の分類器アーキテクチャと互換性を持つ、モデルに依存しないメタラーニングアプローチを開発すること。
- UCF-101動画ベンチマークにおけるメタラーニング性能の評価を実施し、本研究では新規な文脈となる。
- 大幅にラベル付きデータを削減しながら、教師ありメタラーニング手法と同等の性能を達成すること。
提案手法
- UMTRAは、ターゲットタスクのドメインに関連性があり、十分なサイズと多様性を持つラベルなしデータセットから合成トレーニングタスクを生成する。
- クラスタリングとデータ拡張技術を活用して、少量学習のシナリオに類似したサポートセットとクエリセットを構築する。
- メタトレーニング段階では、ラベルが一切不要な状態でこれらの合成タスク上でメタラーニングを実行する。
- 任意の分類器ネットワークアーキテクチャと互換性があり、モデルに依存しない。
- 合成タスクにおけるサポートサンプルとクエリサンプルの特徴量の区別を促進するために、コントラスト学習の目的関数を用いる。
- フレームワークは、画像分類のOmniglotおよびMini-Imagenet、動画分類のUCF-101で評価された。
実験結果
リサーチクエスチョン
- RQ1ラベルなしデータ上で非教師付きメタラーニングを実行することで、競争力のある少量学習分類性能を達成できるか?
- RQ2MAMLのような教師ありメタラーニング手法と比較して、UMTRAの精度とラベル付きデータの効率性はいかがなっているか?
- RQ3UMTRAは、UCF-101のような動画分類タスクに一般化可能か?
- RQ4データセットの多様性とドメイン関連性がUMTRAの性能に与える影響は何か?
- RQ5他の非教師付き表現学習に基づくメタラーニングアプローチと比較して、UMTRAの性能はどの程度か?
主な発見
- Omniglotの5クラス1ショット分類ベンチマークにおいて、UMTRAは教師ありメタラーニング手法MAMLの85%の精度を達成した。
- 同じタスクにおいて、ラベル付き例の必要数を24,005からわずか5に削減し、ラベル付きデータの必要数を99.98%削減した。
- OmniglotおよびMini-Imagenetにおいて、UMTRAはテストされたすべての非教師付き表現学習に基づくメタラーニングアプローチを上回った。
- UMTRAは、非教師付きメタラーニング手法の中で最先端の性能を達成し、CACTUsと交互に最高の結果を記録した。
- 本研究では、UCF-101動画ベンチマークにおけるメタラーニングの評価を初めて実施し、動画分類への適用可能性を示した。
- UMTRAは、ラベルなしデータが関連性がある場合、画像および動画の両ドメインで強力な性能を維持し、ドメインシフトに対しても頑健であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。