QUICK REVIEW

[論文レビュー] MeFEm: Medical Face Embedding model

Yury Borets, Stepan Botman|arXiv (Cornell University)|Feb 16, 2026

Face recognition and analysis被引用数 0

ひとこと要約

MeFEm は、顔画像駆動の医療・生体認証タスクのための改良JEPAフレームワークに基づくビジョンモデルであり、軸方向ストライプマスキング、円形損失重み付け、および確率的CLSトークン再割り当てを特徴とし、大量のラベルなし顔データから頑健な表現を学習し、限られたラベル付きデータで強力な人体測定予測を達成します。

ABSTRACT

We present MeFEm, a vision model based on a modified Joint Embedding Predictive Architecture (JEPA) for biometric and medical analysis from facial images. Key modifications include an axial stripe masking strategy to focus learning on semantically relevant regions, a circular loss weighting scheme, and the probabilistic reassignment of the CLS token for high quality linear probing. Trained on a consolidated dataset of curated images, MeFEm outperforms strong baselines like FaRL and Franca on core anthropometric tasks despite using significantly less data. It also shows promising results on Body Mass Index (BMI) estimation, evaluated on a novel, consolidated closed-source dataset that addresses the domain bias prevalent in existing data. Model weights are available at https://huggingface.co/boretsyury/MeFEm , offering a strong baseline for future work in this domain.

研究の動機と目的

大規模で非医療的な顔データセット上で自己教師あり学習を通じて医療と生体認証の顔分析を橋渡しする。
意味的に関連する顔領域に学習を集約するための特殊なマスキングと重み付け戦略を開発する。
純粋なビジョンSSL埋め込みが、データが少なくても人体計測タスクで専門的なベースラインを上回ることを示す。
既存データソースのバイアスに対処するため、統合されたドメイン多様なBMIデータセットでBMI推定を評価する。
将来の医療顔埋め込み研究のための基準としてモデル重みを提供する。

提案手法

Base encoder: JEPAフレームワークに従うViT（Vision Transformer）。
前処理: BlazeFaceを用いた顔中心の堅牢なクロップにより安定したパッチ配置を確保。
データソース: FaceCaption-15M, AVSpeech, SFHQ; 最終訓練セットは4.6M超＋AVSpeech由来1.5M、加えてSFHQ画像。
マスキング: 全画像ストライプを含む軸方向ストライピング（水平/垂直）を採用し、位置は画像中心付近の切り捨て正規分布からサンプリング。
CLSトークンの扱い: ソース/ターゲットセットへの確率的割り当てによりグローバル表現学習を可能に。
損失: 画像中心から離れた領域のノイズを低減するため円形パッチ重み付け方式を用いた表現レベル予測損失。

Figure 1: Visual examples from the datasets comprising the training set.

実験結果

リサーチクエスチョン

RQ1自己-supervised で視覚のみのモデルが医療に適した顔の表現を学習し、人体測定タスクに適用できるか。
RQ2JEPA における特殊なマスキングと重み付けは、顔中心の医療予測タスクにおける学習効率と性能を向上させるか。
RQ3MeFEm からのBMIおよび人口統計属性の予測は、多様なデータセットで信頼性高く推定できるか。
RQ4大規模な非医療顔データでの事前学習を、限られたラベルデータで医療関連予測へ転移できるか。
RQ5確率的CLSトークン割り当ては、JEPAベースモデルのグローバル表現学習にどのような影響を与えるか。

主な発見

MeFEm は FaRL や Franca のような強力なベースラインを、コアな人体測定タスクで大幅な訓練データ量削減とともに上回る。
統合された多様なBMIデータセット上でのBMI推定結果は、ドメインバイアスを緩和する設計を示唆。
軸方向ストライプマスキングと円形損失重み付けは、意味的に関連する顔領域への学習を効果的に集中させ、背景パッチの影響を減少させる。
確率的CLSトークン再割り当ては、細粒度パッチ学習を損なうことなく、意味のあるグローバル表現学習を可能にする。
顔クロップの標準化と中心化による前処理は、医療・生体認証タスクのViTベースエンコードの一貫性を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。