QUICK REVIEW

[論文レビュー] Using Self-Supervised Co-Training to Improve Facial Representation.

Mahdi Pourmirzaei, Farzaneh Esmaili|arXiv (Cornell University)|May 13, 2021

Face recognition and analysis参考文献 45被引用数 9

ひとこと要約

本論文では、顔の表現学習のための自己教師付きコトレーニングと教師あり学習を組み合わせたマルチタスクフレームワーク、ハイブリッド学習（HL）を提案する。教師あり顔の感情認識と、ジグソーパズルやインペイントといった自己教師付き事前タスクを同時に学習させることで、追加データなしにAffectNetにおける性能を向上させ、ヘッドポーズ推定において最大9%の誤差低減を達成し、低データおよび強力なデータ拡張設定下での過学習を軽減する。

ABSTRACT

In this paper, at first, the impact of ImageNet pre-training on Facial Expression Recognition (FER) was tested under different augmentation levels. It could be seen from the results that training from scratch could reach better performance compared to ImageNet fine-tuning at stronger augmentation levels. After that, a framework was proposed for standard Supervised Learning (SL), called Hybrid Learning (HL) which used Self-Supervised co-training with SL in Multi-Task Learning (MTL) manner. Leveraging Self-Supervised Learning (SSL) could gain additional information from input data like spatial information from faces which helped the main SL task. It is been investigated how this method could be used for FER problems with self-supervised pre-tasks such as Jigsaw puzzling and in-painting. The supervised head (SH) was helped by these two methods to lower the error rate under different augmentations and low data regime in the same training settings. The state-of-the-art was reached on AffectNet via two completely different HL methods, without utilizing additional datasets. Moreover, HL's effect was shown on two different facial-related problem, head poses estimation and gender recognition, which concluded to reduce in error rate by up to 9% and 1% respectively. Also, we saw that the HL methods prevented the model from reaching overfitting.

研究の動機と目的

自己教師付き事前学習が、低データおよび高データ拡張設定下での顔の表現学習に寄与するかどうかを調査すること。
自己教師付きコトレーニングと教師あり学習を統合したマルチタスク学習フレームワークを、顔の感情認識のためのものとして開発すること。
ジグソーパズルやインペイントといった自己教師付き事前タスクが、一般化性能の向上および過学習の低減に寄与するかどうかを評価すること。
提案手法の他の顔分析タスク（感情認識以外）への転送可能性を示すこと。
外部データセットを一切使用せずに、AffectNetで最先端の性能を達成すること。

提案手法

提案されたハイブリッド学習（HL）フレームワークは、マルチタスク学習の枠組み内で教師あり学習と自己教師付きコトレーニングを統合する。
顔画像から空間的および構造的情報を抽出するために、2つの自己教師付き事前タスク（ジグソーパズルとインペイント）を用いる。
訓練中に、教師ありタスク（顔の感情認識）と自己教師付きタスク（事前タスク）の両方のヘッドを同時に最適化する。
共有された特徴抽出器を用いてエンドツーエンドで訓練することで、自己教師付きタスクから主な教師ありタスクへの知識蒸留を可能にする。
さまざまなデータ拡張レベルとデータレジーム下での評価により、耐性および一般化性能を評価する。
ヘッドポーズ推定や性別認識といった他の顔分析タスクへの応用を拡張し、転送可能性を検証する。

実験結果

リサーチクエスチョン

RQ1強いデータ拡張および低データレジーム下において、自己教師付きコトレーニングが顔の感情認識の性能向上に寄与するか？
RQ2ジグソーパズルやインペイントといった自己教師付き事前タスクが、教師あり顔認識モデルの表現能力を向上させられるか？
RQ3標準的な教師あり学習やImageNet微調整と比較して、提案されたハイブリッド学習フレームワークは過学習を軽減できるか？
RQ4HLフレームワークは、感情認識以外の他の顔分析タスクに対してもどの程度一般化できるか？
RQ5外部データセットを一切使用せずに、AffectNetで最先端の性能を達成できるか？

主な発見

強いデータ拡張下では、事前学習がF眉Rに常に利益をもたらすわけではないことが示され、学習から再開した場合の性能がImageNet微調整を上回った。
HLフレームワークは、ヘッドポーズ推定でベースラインの教師あり学習と比較して最大9%、性別認識で1%の誤差低減を達成した。
HLフレームワークは、外部データセットに依存せずにAffectNetで最先端の性能を達成した。
自己教師付き事前タスクは、特に空間的構造に関する補足的情報を提供し、主な教師ありタスクの一般化性能を向上させた。
特に低データおよび高データ拡張条件下では、過学習の防止に効果的に寄与した。
さまざまなデータ拡張レベルにおいて一貫した改善が得られたことから、提案されたコトレーニング戦略の耐性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。