QUICK REVIEW

[論文レビュー] On the effectiveness of task granularity for transfer learning

Farzaneh Mahdisoltani, Guillaume Berger|arXiv (Cornell University)|Apr 24, 2018

Human Pose and Action Recognition参考文献 31被引用数 51

ひとこと要約

本論文は、ソースタスクの粒度レベル（粗いキャプションから細かいキャプション）がおよぶ転移学習のための学習特徴の品質にどう影響するかを調べ、より細かな粒度のタスクほど転移性能が向上すること、キャプショニングが有効なソースタスクとなり得ることを示しています。

ABSTRACT

We describe a DNN for video classification and captioning, trained end-to-end, with shared features, to solve tasks at different levels of granularity, exploring the link between granularity in a source task and the quality of learned features for transfer learning. For solving the new task domain in transfer learning, we freeze the trained encoder and fine-tune a neural net on the target domain. We train on the Something-Something dataset with over 220, 000 videos, and multiple levels of target granularity, including 50 action groups, 174 fine-grained action categories and captions. Classification and captioning with Something-Something are challenging because of the subtle differences between actions, applied to thousands of different object classes, and the diversity of captions penned by crowd actors. Our model performs better than existing classification baselines for SomethingSomething, with impressive fine-grained results. And it yields a strong baseline on the new Something-Something captioning task. Experiments reveal that training with more fine-grained tasks tends to produce better features for transfer learning.

研究の動機と目的

ソースタスクのラベル粒度と転移可能な特徴量の品質の関係を調べる。
ビデオ分類とキャプショニングの共有表現を用いた統一エンコーダ-デコーダモデルを開発する。
Something-Something の特徴量から新しいドメインへ転移学習を評価し、キッチンアクションデータセットを含める。
fine-grained タスクの転移学習のベンチマークとして20bn-kitchenwareを導入する。

提案手法

2D空間CNNと3D時空間CNNの2チャネルビデオエンコーダを用い、共有LSTMエンコーダに入力する。
分類ヘッドとキャプションデコーダを重み付き loss で jointly train: loss = lambda * classification_loss + (1 - lambda) * captioning_loss.
大まかなクラス (coarse-grained) のアクショングループ、細かなクショニング (fine-grained) アクションカテゴリ、簡略化されたオブジェクトプレースホルダーキャプション、完全なオブジェクトプレースホルダーキャプションという4つのタスクを訓練する。
Cap decoders はエンコードされたビデオ表現に条件付けてキャプションを生成する。訓練は固定キャプション長（14語）でのteacher forcingを用いる。
評価は転移学習を含み、エンコーダを凍結してターゲットデータ上で分類器を訓練し、異なるソース粒度レベルで学習した特徴を比較する。

実験結果

リサーチクエスチョン

RQ1より細かな粒度のソースタスクで訓練すると転移学習においてよりリッチな特徴が得られるか。
RQ2分類とキャプショニングを結合して訓練することは、単一タスク訓練と比較して転移性能を改善するか。
RQ3粗い分類と細かい分類、簡略キャプションと完全キャプションという異なる粒度レベルが分類とキャプショニングの性能に与える影響はどうなるか。
RQ4Something-Something由来の特徴量は新しい、細粒度のキッチンアクションデータセット（20bn-kitchenware）へどの程度転移するか。

主な発見

より細かいタスクで訓練すると転移学習のための特徴が向上する傾向がある。
分類とキャプショニングの両方を行うように joint に訓練したモデルは、新しいタスクへ特徴をよりよく転移させる。
粗さ的な分類と細粒度分類の比較では、細粒度訓練がテスト精度を高める（例：報告された設定で50.44%対41.7%）。
キャプショニングをソースタスクとして用いることは有効で有益であり、キャプショニングとアクション分類の結合訓練は転移性能を改善する。
提案された20bn-kitchenwareベンチマークは、Something-Something pre-trained特徴量と時間的モデルの再帰を用いた転移が、細粒度のキッチンアクションへ適用する際にベースラインを上回ることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。