[論文レビュー] Range Loss for Deep Face Recognition with Long-tail
本論文では、長尾データ分布下での深層顔認識においてクラス内ばらつきを低減し、クラス間マージンを拡大する、新たな損失関数であるrange lossを提案する。ミニバッチ内でのk番目に大きなクラス内距離の調和平均と、最も短いクラス間距離を最適化することで、不足しているクラスからの有効な学習が可能となり、データが不均衡であってもLFWおよびYTFベンチマークで最先端の性能を達成する。
Convolutional neural networks have achieved great improvement on face recognition in recent years because of its extraordinary ability in learning discriminative features of people with different identities. To train such a well-designed deep network, tremendous amounts of data is indispensable. Long tail distribution specifically refers to the fact that a small number of generic entities appear frequently while other objects far less existing. Considering the existence of long tail distribution of the real world data, large but uniform distributed data are usually hard to retrieve. Empirical experiences and analysis show that classes with more samples will pose greater impact on the feature learning process and inversely cripple the whole models feature extracting ability on tail part data. Contrary to most of the existing works that alleviate this problem by simply cutting the tailed data for uniform distributions across the classes, this paper proposes a new loss function called range loss to effectively utilize the whole long tailed data in training process. More specifically, range loss is designed to reduce overall intra-personal variations while enlarging inter-personal differences within one mini-batch simultaneously when facing even extremely unbalanced data. The optimization objective of range loss is the $k$ greatest range's harmonic mean values in one class and the shortest inter-class distance within one batch. Extensive experiments on two famous and challenging face recognition benchmarks (Labeled Faces in the Wild (LFW) and YouTube Faces (YTF) not only demonstrate the effectiveness of the proposed approach in overcoming the long tail effect but also show the good generalization ability of the proposed approach.
研究の動機と目的
- 深層顔認識における長尾分布問題に対処すること。これは、訓練データが不足するため、顕著に少ないクラスの識別子が特徴学習に悪影響を及えるためである。
- 希少(テール)クラスを含むすべてのデータを、データのフィルタリングやオーバーサンプリングを伴わずに効果的に活用できる損失関数を開発すること。
- 各ミニバッチ内での困難なクラス内サンプルに注目することで、最適化を集中させ、モデルの汎化性能を向上させること。
- 提案された損失関数の有効性と汎化能力を、複数のベンチマークおよびネットワークアーキテクチャを用いて実証すること。
提案手法
- Range lossは、ミニバッチ内でのk番目に大きなクラス内ユークリッド距離の調和平均として定義され、各識別子の特徴空間における凝集性を促進する。
- 同時に、同じバッチ内に存在する任意の2つの識別子間の最短クラス間距離を最小化することで、クラス間分離を促進する。
- ソフトマックス損失と共同で最適化されることで、クラスの判別性を維持しながら、長尾データに対するロバスト性を強化する。
- 訓練中に動的にクラス内範囲を再計算し、各クラス内の最も困難なサンプルに注目する。
- このアプローチは、深層残差ネットワークに適用され、最小限のデータフィルタリングで標準的な顔認識ベンチマークで評価されている。
実験結果
リサーチクエスチョン
- RQ1希少クラスの削除やオーバーサンプリングを伴わずに、長尾データセットにおける深層顔認識性能を向上させる損失関数を設計可能か?
- RQ2ミニバッチ内でクラス内凝集性とクラス間マージンを最適化することで、顕著に少ないクラスの識別子に対するモデルの汎化性能にどのような影響を与えるか?
- RQ3Range lossをソフトマックス損失と組み合わせることで、単独で使用する場合や、従来の対照的損失(contrastive loss)などの代替手法よりも優れた特徴学習が達成できるか?
- RQ4提案された損失関数は、異なる深層ネットワークアーキテクチャに一般化可能であり、標準ベンチマークで最先端の性能を達成できるか?
主な発見
- 150万枚のフィルタリング済み画像でrange lossとソフトマックス損失を併用して学習したモデルEは、LFWで99.52%の精度を達成し、ベースラインモデルD(98.27%)を1.25ポイント上回った。
- YTFでは、同じモデルが93.70%の精度を達成し、ベースラインモデルD(93.10%)を0.60ポイント上回った。
- Range lossを用いたモデルは、より小さな訓練データセットを用いても、DeepID-2+、FaceNet、DeepFaceなどの最先端モデルを上回った。
- Range lossの統合により、最も頻度が低い50%の識別子からも効果的に学習が可能となり、ベースライン比で0.43%の性能向上が達成された。
- 本手法は強力な汎化性能を示し、異なるネットワークアーキテクチャおよびデータスケールにおいても高い性能を維持した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。