Skip to main content
QUICK REVIEW

[논문 리뷰] Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification

Armando Zhu, Keqin Li|arXiv (Cornell University)|2024. 04. 22.
Industrial Vision Systems and Defect Detection인용 수 13
한 줄 요약

교차 주의로 정보를 교환하는 교차 작업 융합 단계를 통해, FER(face expression)와 마스크 착용 분류를 동시에 수행하는 단일 통합 이중 분기 Vision Transformer.

ABSTRACT

With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task.

연구 동기 및 목표

  • 마스크 착용 조건에서 FER을 하나의 통합 문제로 다루다.
  • 다중 스케일 표현을 갖춘 이중 분기 아키텍처를 통해 공유 특징과 과제 특유 특징을 활용한다.
  • 교차-task 융합 단계를 도입하여 개별 네트워크에 비해 모델 복잡도를 줄인다.

제안 방법

  • FER과 마스크 착용을 위한 공유 다중 스케일 특징을 추출하기 위해 이중 분기 Vision Transformer를 사용한다.
  • 정보 교환을 가능하게 하면서 각 작업의 토큰을 별도의 분기에서 처리한다.
  • 상호 작업 간 정보 공유를 위한 cross-attention 모듈을 갖춘 교차-task 융합 단계를 도입한다.
  • 성능을 유지하면서 개별 네트워크에 비해 전체 복잡도를 감소시키는 것을 목표로 한다.

실험 결과

연구 질문

  • RQ1마스크가 있는 상태에서 단일화된 다중 분기 아키텍처가 태스크별 모델에 비해 FER을 개선할 수 있는가?
  • RQ2교차-attention을 통한 교차-task 융합이 FER과 마스크 착용 분류 모두의 성능을 향상시키는가?
  • RQ3제안된 교차-task 아키텍처가 두 개의 분리된 네트워크를 사용하는 것보다 더 효율적인가?

주요 결과

  • 제안된 모델은 FER 및 마스크 착용 분류에서 최첨단 방법과 비교하여 경쟁력 있는 성능을 달성한다.
  • 교차-attention을 통한 교차-task 융합은 정보 교환을 촉진하고 마스킹 조건에서 인식을 향상시킨다.
  • 이 프레임워크는 각 작업에 대해 개별 네트워크를 사용하는 것에 비해 전체 복잡도를 감소시킨다.
  • 실험은 이 모델이 두 작업 모두에서 여러 기준선 방법과 동등하거나 더 나은 성능을 보임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.