[論文レビュー] Labelling unlabelled videos from scratch with multi-modal self-supervision
本論文は SeLaVi を紹介します。音声と映像の対応関係を利用して、未ラベルの動画に対して表現と擬似ラベルを同時に学習するマルチモーダル自己监督型クラスタリング手法であり、いくつかの動画データセットにおいて最先端の無監督ラベリングを達成します。
A large part of the current success of deep learning lies in the effectiveness of data -- more precisely: labelled data. Yet, labelling a dataset with human annotation continues to carry high costs, especially for videos. While in the image domain, recent methods have allowed to generate meaningful (pseudo-) labels for unlabelled datasets without supervision, this development is missing for the video domain where learning feature representations is the current focus. In this work, we a) show that unsupervised labelling of a video dataset does not come for free from strong feature encoders and b) propose a novel clustering method that allows pseudo-labelling of a video dataset without any human annotations, by leveraging the natural correspondence between the audio and visual modalities. An extensive analysis shows that the resulting clusters have high semantic overlap to ground truth human labels. We further introduce the first benchmarking results on unsupervised labelling of common video datasets Kinetics, Kinetics-Sound, VGG-Sound and AVE.
研究の動機と目的
- 未ラベル化を可能にすることで動画データのラベリングコストを削減する動機付け。
- 人間の注釈なしで、マルチモーダル(音声-映像)ビデオデータから学ぶクラスタリングフレームワークを開発する。
- クラスタが意味的内容を反映する一方で、非均衡な(Zipf様の)クラス分布を扱えるようにする。
- 音声と映像のストリームを拡張として扱い、それらを整合させることでモダリティに頑健なクラスタリングを実現する。
- 標準的な動画データセットで強力なベンチマークを提供し、無監督ラベリングの性能を確立する。
提案手法
- 崩れた解を防ぐためにクラスタリングを最適輸送問題として定式化する(SeLa の基礎)。
- 現実世界の歪んだ分布に対応するために一様クラスタ事前分布を緩和し、Sinkhorn 最適化を介して任意の事前分布を許容する。
- モダリティを拡張として扱い、モダリティに依存しないクラスタを学習することでマルチモーダル単一ラベリングを導入する。
- 初期化時にモダリティ特異的エンコーダを同期させ、モダリティ間の出力を整合させる。
- 複数のデコレラレートなクラスタリングヘッドを学習して、並列に多様で直交するラベリングを探索する。
- 音声と映像のペアエンコーダで訓練し、共有クラスタ割り当てを生成し、モダリティスプライシング拡張を適用する。
実験結果
リサーチクエスチョン
- RQ1マルチモーダル自己監督型クラスタリングは、人間の注釈なしで意味的に意味のある動画ラベルを生成できるか?
- RQ2音声-映像の対応とモダリティ整合の組み込みは、単一モダリティや後付けラベリングと比べてクラスタリング品質にどう影響するか?
- RQ3複数のデコレラトされたクラスタリングヘッドは、動画の有効ラベリング空間のカバーを改善するか?
- RQ4劣化したモダリティ(例:圧縮された映像)に対して学習されたクラスタリングはどれくらい頑健か?
主な発見
- SeLaVi は VGG-Sound、AVE、Kinetics-Sound で最先端のクラスタリング指標を達成し、NMI、ARI、精度がベースラインより大幅に高い。
- 音声と映像の両モダリティを使用すると、いずれか一方のモダリティだけよりクラスタリング品質が高く、モダリティが整合しているときに顕著な向上がある。
- デコレラレートされたクラスタリングヘッドとモダリティ整合は、単一ヘッドや単純な結合ベースラインよりクラスタリング性能を大幅に向上させる。
- この手法は、ラベル付きデータなしでVGG-Soundの32%、AVEの55%の動画を完璧にグループ化でき、AVEでは57.9%の精度を達成する。
- SeLaVi が学習した無監督ラベルは、下流の表現学習を改善し、動画アクション検索性能の向上を含む改善を支援する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。