QUICK REVIEW

[論文レビュー] Multi-modal Self-Supervision from Generalized Data Transformations

Mandela Patrick, Yuki M. Asano|arXiv (Cornell University)|May 4, 2021

Music and Audio Processing参考文献 86被引用数 119

ひとこと要約

本論文は、動画における複数のモodal および時間的ダイナミクスにわたる不変性と特徴性を体系的かつ包括的に探求する統一フレームワークである一般化データ変換（GDTs）を導入する。コンテンツを保持する変換を不変性または特徴性の観点から明示的に制御することで、GDTs は最先端の性能を達成し、HMDB-51 で 72.8%、UCF-101 で 95.2% の精度を記録。これは、教師あり事前学習をも上回る結果である。

ABSTRACT

In the image domain, excellent representation can be learned by inducing invariance to content-preserving transformations, such as image distortions. In this paper, we show that, for videos, the answer is more complex, and that better results can be obtained by accounting for the interplay between invariance, distinctiveness, multiple modalities and time. We introduce Generalized Data Transformations (GDTs) as a way to capture this interplay. GDTs reduce most previous self-supervised approaches to a choice of data transformations, even when this was not the case in the original formulations. They also allow to choose whether the representation should be invariant or distinctive w.r.t. each effect and tell which combinations are valid, thus allowing us to explore the space of combinations systematically. We show in this manner that being invariant to certain transformations and distinctive to others is critical to learning effective video representations, improving the state-of-the-art by a large margin, and even surpassing supervised pretraining. We demonstrate results on a variety of downstream video and audio classification and retrieval tasks, on datasets such as HMDB-51, UCF-101, DCASE2014, ESC-50 and VGG-Sound. In particular, we achieve new state-of-the-art accuracies of 72.8% on HMDB-51 and 95.2% on UCF-101.

研究の動機と目的

単なる画像レベルの歪みに対する不変性を超えた、効果的な動画表現学習の複雑さに対処すること。
自己教師付き学習における不変性、特徴性、複数モーダル（例：動画と音声）および時間的ダイナミクスの間の相互作用を形式化すること。
さまざまな自己教師付き手法を統一する一般化データ変換のフレームワークとしての統合。
変換の組み合わせを体系的に探索し、最適な表現をもたらすものを同定すること。
下流の動画および音声分類・検索タスクにおいて最先端の性能を達成すること。

提案手法

空間的・時間的・モーダル固有の変換を含む、さまざまなデータオーキュレーションを統合する一般化データ変換（GDTs）を提案。
各変換を、学習された表現がその変換に対して不変であるか、特徴的であるかを明示的に制御できるように定義。
各変換がモーダル（例：動画、音声）および時間的スコープ（例：フレームレベル、クリップレベル）を有する操作の集合として変換空間をモデル化。
対照的学習の目的関数を用い、特定の変換（例：色のジャマ）に対して不変であるように、他の変換（例：フレームのシャッフル）に対して特徴的になるようにモデルを学習。これにより、頑健で判別力のある特徴が得られる。
変換の組み合わせの空間を体系的に探索し、下流性能を最大化する最適な構成を同定。
HMDB-51、UCF-101、ESC-50、DCASE2014、VGG-Sound などのデータセットで、線形プローブまたは微調整を用いて学習済み表現を下流タスクに適用。

実験結果

リサーチクエスチョン

RQ1複数のモーダルおよび時間的要因にわたる不変性と特徴性の相互作用は、動画表現学習にどのように影響するか？
RQ2GDTs のような統一フレームワークは、動画学習における多様な自己教師付き手法を一般化し統合できるか？
RQ3どの変換の組み合わせが、下流性能の観点で最も効果的な動画表現をもたらすか？
RQ4GDTs を用いた自己教師付き学習は、動画ベンチマークで教師あり事前学習を上回ることができるか？
RQ5モーダル固有の変換（例：音声の摂動）は、多モーダル表現学習にどのように寄与するか？

主な発見

一般化データ変換（GDTs）は、多数の先行自己教師付き動画学習手法を統一的かつ包括的なフレームワークとして統合し一般化する。
特定の変換（例：色の変化）に対して不変で、他の変換（例：フレーム順序の変更）に対して特徴的である表現を学習することは、性能向上に顕著に寄与する。
本手法は、HMDB-51 動作認識ベンチマークで 72.8% の新しい最先端精度を達成した。
UCF-101 では 95.2% の精度を記録し、以前の最先端を上回り、さらに教師あり事前学習をも凌駕した。
本フレームワークは、不変性と特徴性のバランスを取る最適な構成を体系的に同定するための探索を可能にした。
学習済み表現は、HMDB-51、UCF-101、DCASE2014、ESC-50、VGG-Sound における動画および音声分類・検索など、多様な下流タスクに効果的に一般化された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。