[논문 리뷰] Vision Transformer for Action Units Detection
이 논문은 ABAW 2023에서 AU 탐지를 위해 CNN RegNetY 백본이 포함된 ViViT 기반의 Vision Transformer 접근법을 제시하고, 기준선 대비 큰 개선과 최상위 기존 방법들과의 경쟁력 있는 성과를 달성한다.
Facial Action Units detection (FAUs) represents a fine-grained classification problem that involves identifying different units on the human face, as defined by the Facial Action Coding System. In this paper, we present a simple yet efficient Vision Transformer-based approach for addressing the task of Action Units (AU) detection in the context of Affective Behavior Analysis in-the-wild (ABAW) competition. We employ the Video Vision Transformer(ViViT) Network to capture the temporal facial change in the video. Besides, to reduce massive size of the Vision Transformers model, we replace the ViViT feature extraction layers with the CNN backbone (Regnet). Our model outperform the baseline model of ABAW 2023 challenge, with a notable 14% difference in result. Furthermore, the achieved results are comparable to those of the top three teams in the previous ABAW 2022 challenge.
연구 동기 및 목표
- 야생에서의 ABAW 도전 과제 내에서 강력한 얼굴 Action Units(AU) 탐지를 동기화합니다.
- 모델 크기를 관리하기 위해 CNN 특징을 사용하는 경량 ViViT 기반 아키텍처를 제안합니다.
- ABAW 2023 기준선 대비 개선을 보여주고 ABAW 2022의 상위 팀과 비교합니다.
제안 방법
- RegNetY를 사전 학습된 CNN 백본으로 채택하고 마지막 세 블록 일부를 파인튜닝하여 비디오 임베딩을 추출합니다.
- Video Vision Transformer(ViViT)와 Factorized encoder 변형을 사용하여 비디오 프레임의 시공간 토큰을 처리합니다.
- Tubelet Embedding을 적용하여 비디오 임베딩을 Transformer 토큰으로 변환하고, 잔차 연결이 있는 MSA, 레이어 정규화, 그리고 MLP 블록을 통과시킵니다.
- SGD와 코사인 조정 워밍업 재시작, 중요도 불균형을 다루기 위한 focal loss를 사용하여 12개의 AU에 대한 클래스를 다룹니다.
- 연산 부담을 줄이기 위해 ViViT 깊이를 마지막 8개 Transformer 계층만 남겨 제한합니다.
- 주요 메트릭으로 12개의 AU에 대해 평균화된 매크로 F1 점수를 사용하여 평가합니다.

실험 결과
연구 질문
- RQ1CNN 기반 ViViT 아키텍처가 야생에서의 대회 설정에서 얼굴 AU를 효과적으로 탐지할 수 있는가?
- RQ2CNN 백본으로 전체 ViViT 특징 추출 계층을 대체하면 AU 탐지 정확성을 해치지 않으면서 모델 크기가 감소하는가?
- RQ3제안된 방법이 ABAW 기초선 및 이전 해(ABAW 2022)의 상위 팀과 매크로 F1 점수에서 어떻게 비교되는가?
- RQ4ViViT 변형(Factorized encoder) 사용 및 축소된 Transformer 깊이가 성능과 속도에 미치는 영향은 무엇인가?
주요 결과
- 제안된 방법은 ABAW 2023 기초선을 매크로 F1 점수에서 약 14% 크게 상회합니다.
- 이 방법은 ABAW 2022의 상위 팀들과 경쟁력 있는 결과를 달성합니다.
- RegNetY를 CNN 백본으로 활용하고 부분적 파인튜닝으로도 모델 크기를 줄이면서 성능을 유지합니다.
- 제한된 Transformer 계층(마지막 8개)과 focal loss를 갖춘 ViViT 기반 분류기가 교차 검증에서 안정적인 성능을 제공합니다.
- 보고된 표의 매크로 F1 점수는 다중 폴드와 검증 분할에 걸쳐 강한 AU 탐지 성능을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.