Skip to main content
QUICK REVIEW

[論文レビュー] Masked Contrastive Graph Representation Learning for Age Estimation

Yuntao Shou, Xiangyong Cao|arXiv (Cornell University)|Jun 16, 2023
Face recognition and analysis被引用数 8
ひとこと要約

MCGRL は、対照的学習を用いて識別性と一般化を向上させるマスク付き GCN と CNN 特徴を組み合わせたグラフ表現学習法で、年齢推定を改善する。MORPH、FG-NET、CACD データセットで最先端手法を上回る。

ABSTRACT

Age estimation of face images is a crucial task with various practical applications in areas such as video surveillance and Internet access control. While deep learning-based age estimation frameworks, e.g., convolutional neural network (CNN), multi-layer perceptrons (MLP), and transformers have shown remarkable performance, they have limitations when modelling complex or irregular objects in an image that contains a large amount of redundant information. To address this issue, this paper utilizes the robustness property of graph representation learning in dealing with image redundancy information and proposes a novel Masked Contrastive Graph Representation Learning (MCGRL) method for age estimation. Specifically, our approach first leverages CNN to extract semantic features of the image, which are then partitioned into patches that serve as nodes in the graph. Then, we use a masked graph convolutional network (GCN) to derive image-based node representations that capture rich structural information. Finally, we incorporate multiple losses to explore the complementary relationship between structural information and semantic features, which improves the feature representation capability of GCN. Experimental results on real-world face image datasets demonstrate the superiority of our proposed method over other state-of-the-art age estimation approaches.

研究の動機と目的

  • substantially redundant information. から robust な年齢推定を目指す。
  • 不規則な画像領域をグラフベースの表現でモデリングし、構造的関係を捉える。
  • コントラスト学習を通じて意味的(CNNベース)特徴とグラフ構造表現を融合する。
  • クラス内変動を低減し、クラス間差を拡大して一般化を改善する。

提案手法

  • 顔画像をパッチに分割してグラフノードとし、K-NN グラフを構築する。
  • マスク付きグラフ畳み込みネットワーク(GCN)を用いて、マスクベースの増強を行い構造埋め込みを得る。
  • CNN+MLP特徴からアンカー埋め込みを生成して効率化し、マスキングと行シャッフルを用いてポジティブ/ネガティブサンプルを作成する。
  • 複数の損失関数を適用(L_N、L_M、上限値 L_V を伴う三項損失)ことで、ポジティブを整列させ、ネガティブを分離し、距離を制御する。
  • 構造情報と意味情報を統合し識別性を高める三項損失で訓練する。

実験結果

リサーチクエスチョン

  • RQ1マスク付きグラフベースの表現は、従来のCNN/ViTアプローチを超える堅牢な構造情報を年齢推定に捉えることができるか。
  • RQ2マスク付き GCN のポジティブとシャッフルされたネガティブを用いた対照学習は、データセット間で年齢推定の精度と一般化を向上させるか。
  • RQ3グラフ畳み込みの variante とマスク率が年齢推定性能に与える影響はどれほどか。
  • RQ4MCGRL はデ cross-dataset 評価で最先端手法と比較してどの程度一般化できるか。

主な発見

DatasetMAE (MCGRL)CS (%) (MCGRL)Dataset (comparison)MAE (best competitor)CS (%) (best competitor)Dataset (best overall)MAE (best overall)CS (%) (best overall)
MORPH2.3989.9MORPH (comparison)2.42–4.0370.1–87.4MORPH (best overall)2.3989.9
FG-NET2.8688.0FG-NET (comparison)3.74–5.7966.5–74.5FG-NET (best overall)2.8688.0
CACD4.0380.1CACD (comparison)4.03–6.5260.0–72.8CACD (best overall)4.0380.1
  • MCGRL は MORPH、FG-NET、CACD データセット全体で平均絶対誤差(MAE)と累積スコア(CS)で優位を示す。例:MORPH で MAE 2.39、CS 89.9%。
  • データセット横断評価で MCGRL は FG-NET、MORPH、FACES、SC-FACE の変種で競合法を上回り、CS に顕著な改善を示す。
  • アブレーション研究により、L_N、L_M、L_V の組み合わせがすべてのデータセットで最良の性能をもたらすことを確認。
  • Max-Relative GraphConv と提案された損失で、MORPH、FG-NET、CACD の MAE が最高となる。
  • マスク率の解析は、評価データセットで最適な MAE を得るために p = 0.6 が最適であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。