QUICK REVIEW

[論文レビュー] LARNet: Lie Algebra Residual Network for Face Recognition

Xiaolong Yang, Xiaohong Jia|arXiv (Cornell University)|Mar 15, 2021

Face recognition and analysis参考文献 64被引用数 24

ひとこと要約

LARNetは、3次元顔の回転を畳み込みニューラルネットワーク（CNN）特徴空間における加法的残差成分としてモデル化する、リー代数に基づく残差ネットワークを提案する。これにより、アングルに頑健な顔認識が実現される。回転を回転不変特徴と回転の大きさに分解し、ゲーティングサブネットで回転の大きさを学習することで、正面から側顔への顔認識ベンチマークおよび一般顔認識ベンチマークで最先端の性能を達成した。

ABSTRACT

Face recognition is an important yet challenging problem in computer vision. A major challenge in practical face recognition applications lies in significant variations between profile and frontal faces. Traditional techniques address this challenge either by synthesizing frontal faces or by pose invariant learning. In this paper, we propose a novel method with Lie algebra theory to explore how face rotation in the 3D space affects the deep feature generation process of convolutional neural networks (CNNs). We prove that face rotation in the image space is equivalent to an additive residual component in the feature space of CNNs, which is determined solely by the rotation. Based on this theoretical finding, we further design a Lie Algebraic Residual Network (LARNet) for tackling pose robust face recognition. Our LARNet consists of a residual subnet for decoding rotation information from input face images, and a gating subnet to learn rotation magnitude for controlling the strength of the residual component contributing to the feature learning process. Comprehensive experimental evaluations on both frontal-profile face datasets and general face recognition datasets convincingly demonstrate that our method consistently outperforms the state-of-the-art ones.

研究の動機と目的

正面と側顔の間のアングル変動に起因する顔認識の課題に対処すること。
リー代数を用いて、3次元顔の回転がCNNの深層特徴学習に与える影響を理論的にモデル化すること。
回転情報を明示的に符号化することで特徴の頑健性を向上させる、新しいニューラルネットワークアーキテクチャを設計すること。
正面から側顔、および一般顔認識データセットにおいて、既存の最先端手法を上回ること。

提案手法

リー代数理論を用いて、3次元顔の回転が入力画像に依存しないCNN特徴空間における加法的残差成分を誘導することを証明する。
SO(3)リー群構造に由来する幾何的事前知識を用いて、入力顔画像から回転情報をデコードするための残差サブネットを設計する。
回転の大きさを学習するゲーティングサブネットを導入し、特徴学習における残差成分の強度を動的に制御する。
残差成分を回転角度と回転軸に依存するベクトルとして特徴空間に定式化する。
顔認識と回転推定の両方を最適化するジョイント損失関数を用いて、ネットワークをエンドツーエンドで訓練する。
画像空間における回転と特徴空間における残差の理論的同等性を活用し、アングル不変性を向上させるための特徴学習の正則化を行う。

実験結果

リサーチクエスチョン

RQ1画像空間における3次元顔の回転を、リー代数を用いてCNN特徴空間における加法的残差として数学的にモデル化できるか？
RQ2深層ニューラルネットワークにおいて、回転情報を効果的にデコードし、パラメータ化する方法は何か？
RQ3学習されたゲーティングメカニズムによる回転の大きさの制御は、顔認識におけるアングル変動への一般化を向上させることができるか？
RQ4提案されたリー代数的残差設計は、多様な顔認識ベンチマークにおいて、常に最先端の手法を上回る性能向上をもたらすか？

主な発見

理論的分析により、3次元顔の回転が、回転そのものにのみ依存するパラメータで定義されるCNN特徴空間における加法的残差を誘導することが証明された。
LARNetは、正面から側顔への顔認識ベンチマークにおいて、先行手法を上回る最先端の性能を達成した。
複数の一般顔認識ベンチマークにおいて一貫した改善が確認され、強力な一般化性能が示された。
アブレーションスタディにより、残差サブネットとゲーティングメカニズムの両方が最適な性能を達成するために不可欠であることが確認された。
特に困難な側顔から正面への顔認識タスクにおいても、大きなアングル変動に対して頑健であることが示された。
リー代数の使用により、大規模なアングル拡張データを必要とせずに、幾何学的に根拠のある誘導バイアスが特徴学習を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。