[論文レビュー] Multicolumn Networks for Face Recognition
本論文は、視覚品質を重み付けし、内容の関連性で再校正することで集合を表現する Multicolumn Networks を提案し、従来手法より IJB ベンチマークの性能を向上させる。
The objective of this work is set-based face recognition, i.e. to decide if two sets of images of a face are of the same person or not. Conventionally, the set-wise feature descriptor is computed as an average of the descriptors from individual face images within the set. In this paper, we design a neural network architecture that learns to aggregate based on both "visual" quality (resolution, illumination), and "content" quality (relative importance for discriminative classification). To this end, we propose a Multicolumn Network (MN) that takes a set of images (the number in the set can vary) as input, and learns to compute a fix-sized feature descriptor for the entire set. To encourage high-quality representations, each individual input image is first weighted by its "visual" quality, determined by a self-quality assessment module, and followed by a dynamic recalibration based on "content" qualities relative to the other images within the set. Both of these qualities are learnt implicitly during training for set-wise classification. Comparing with the previous state-of-the-art architectures trained with the same dataset (VGGFace2), our Multicolumn Networks show an improvement of between 2-6% on the IARPA IJB face recognition benchmarks, and exceed the state of the art for all methods on these benchmarks.
研究の動機と目的
- セットベースの顔認証を、単純な平均プーリングを超えて品質意識を持つ集約を学習することによって改善する。
- 低品質画像を低重みづけするビジュアル品質管理モジュールを導入する。
- 集合内の相対的な識別重要度に基づいて画像を再重み付けするコンテンツ品質管理モジュールを導入する。
- MN アーキテクチャが VGGFace2 で訓練したバックボーンを用いて IJB-A/B/C の検証性能を改善することを示す。
- ResNet50 に対して MN が追加するパラメータの overhead を最小限にしつつ、一貫した利益を提供することを示す。
提案手法
- 各画像を共有の ResNet50 ボトトムで埋め込み、画像ごとの descriptors を得る。
- シグモイド活性化 FC 層を用いて各画像に対する自己認識的な視覚品質ウェイトを計算する。
- 各画像を集合の平均顔と関連付けてコンテンツ認識品質ウェイトを計算し、第二のシグモイド活性化 FC 層を用いて集計する。
- 視覚ウェイトとコンテンツウェイトを組み合わせて、画像 descriptors の加重平均を通じて集合デスクリプタを形成する。
- まず VGGFace2 で画像単位の事前学習を行い、次に集合単位の分類でエンドツーエンドにファインチューニングする。
- 集合デスクリプタに対してコサイン類似度を用いて IJB-A/B/C ベンチマークを評価する。
実験結果
リサーチクエスチョン
- RQ1集合ベースの顔デスクリプタを、絶対的画像品質と集合内の相対的なコンテンツ品質の両方に依存する各画像の寄与度で改善できるか。
- RQ2視覚品質とコンテンツ品質の両方を組み込むことで、 unconstrained な顔ベンチマークにおける単純な平均プーリングや従来のアテンションベース集約を上回るか。
- RQ3MN を視覚のみの品質管理と視覚+コンテンツ品質管理の両方で用いた場合、IJB-A/B/C ベンチマークでの性能向上はどの程度か。
主な発見
| データセット | アーキテクチャ | FAR=1e-5 | FAR=1e-4 | FAR=1e-3 | FAR=1e-2 | FAR=1e-1 |
|---|---|---|---|---|---|---|
| IJB-B | MN-v | 0.683 | 0.818 | 0.902 | 0.955 | 0.984 |
| IJB-B | MN-vc | 0.708 | 0.831 | 0.909 | 0.958 | 0.985 |
| IJB-C | MN-v | 0.755 | 0.852 | 0.920 | 0.965 | 0.988 |
| IJB-C | MN-vc | 0.771 | 0.862 | 0.927 | 0.968 | 0.989 |
- MN の視覚品質バージョン(MN-v)は、同じバックボーンを用いて IJB ベンチマークで従来の最先端を上回る。
- コンテンツ品質管理(MN-vc)を追加することで、IJB-B および IJB-C データセット全体でさらに改善が得られる。
- ResNet50 ベースラインと比較して、MN は約 6K の追加パラメータを導入し、IJB-B および IJB-C で絶対的な利得を 2-6% 得る。
- IJB-B では、MN-v および MN-vc は FAR=1e-5…1e-1 に対してそれぞれ 0.683/0.708、0.818/0.831、0.902/0.909、0.955/0.958、0.984/0.985 を達成。
- IJB-C では、MN-v および MN-vc は FAR=1e-5…1e-1 に対してそれぞれ 0.755/0.771、0.852/0.862、0.920/0.927、0.965/0.968、0.988/0.989 を達成。
- 結果は、非常に低 FAR(1e-5 〜 1e-3)で最も顕著な改善を示す。これは異常画像の抑制と識別可能な視点の強調による。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。