QUICK REVIEW

[논문 리뷰] End2You -- The Imperial Toolkit for Multimodal Profiling by End-to-End Learning

Panagiotis Tzirakis, Stefanos Zafeiriou|arXiv (Cornell University)|2018. 02. 04.

Music and Audio Processing참고 문헌 8인용 수 21

한 줄 요약

End2You는 영국 임페리얼 칼리지 런던에서 개발한 오픈소스 엔드 투 엔드 딥러닝 툴킷으로, 수동으로 설계된 특징 없이 원시 감각 입력(음성, 영상, 생리 신호 또는 그 조합)을 사용하여 다중모odal 프로파일링을 수행합니다. RECOLA 데이터셋에서 경쟁력 있는 성능를 기록하며, 원시 데이터에서 자가 학습된 표현에 의존함에도 불구하고 상태 수준의 정서 인식 성능를 달성합니다.

ABSTRACT

We introduce End2You -- the Imperial College London toolkit for multimodal profiling by end-to-end deep learning. End2You is an open-source toolkit implemented in Python and is based on Tensorflow. It provides capabilities to train and evaluate models in an end-to-end manner, i.e., using raw input. It supports input from raw audio, visual, physiological or other types of information or combination of those, and the output can be of an arbitrary representation, for either classification or regression tasks. To our knowledge, this is the first toolkit that provides generic end-to-end learning for profiling capabilities in either unimodal or multimodal cases. To test our toolkit, we utilise the RECOLA database as was used in the AVEC 2016 challenge. Experimental results indicate that End2You can provide comparable results to state-of-the-art methods despite no need of expert-alike feature representations, but self-learning these from the data "end to end".

연구 동기 및 목표

수동으로 설계된 특징 공학 없이도 일반적이고 오픈소스인 엔드 투 엔드 다중모달 프로파일링 툴킷을 개발하는 것.
음성, 영상, 생리 신호 또는 그 조합과 같은 원시 입력 모odalities에서 딥러닝 모델의 훈련 및 평가를 가능하게 하는 것.
임의의 출력 차원과 시간적 구조를 가진 분류 및 회귀 작업을 지원하는 것.
모듈러 아키텍처를 통해 단모달 및 다중모달 모델을 자유롭게 조합할 수 있는 융통성 있는 프레임워크를 제공하는 것.
원시 감각 데이터만을 사용하여도 감정 컴퓨팅 작업에 대해 엔드 투 엔드 학습의 타당성을 입증하는 것.

제안 방법

툴킷은 파이썬으로 구현되었으며, 텐서플로우를 사용하며 명령줄 인터페이스와 API 인터페이스를 모두 지원합니다.
원시 입력 데이터는 효율적인 데이터 로딩 및 훈련을 위해 .tfrecord 형식으로 변환됩니다.
단모달 모델로는 음성에 대해 2층 CNN(40개 필터, 커널 크기 20 및 40), 영상에 대해 50층의 ResNet, 순차적 모델링에 대해 RNN(GRU 또는 LSTM)이 포함됩니다.
완전 연결 네트워크(FCN)와 RNN을 사용해 특징 또는 원시 입력을 처리함으로써 다양한 모델 스택이 가능해집니다.
다중모달 융합은 단모달 모델의 출력을 연결하여 공유 RNN 또는 FCN 헤드에 입력함으로써 달성됩니다.
손실 및 평가 지표로 협조 상관계수(Concordance Correlation Coefficient, CCC)를 사용하여 엔드 투 엔드 훈련을 지원합니다.

실험 결과

연구 질문

RQ1원시 감각 입력을 사용한 엔드 투 엔드 딥러닝이 수동으로 설계된 특징 없이도 다중모달 정서 프로파일링에서 경쟁력 있는 성능를 달성할 수 있는가?
RQ2HRV 및 EDA 지표와 같은 공 ing된 특징에 의존하는 최신 기술 시스템과 비교해 볼 때, 엔드 투 엔드 모델의 성능는 어떠한가?
RQ3모듈러이고 오픈소스인 툴킷이 감정 컴퓨팅에 적합한 다양한 단모달 및 다중모달 구성에 얼마나 잘 대응할 수 있는가?
RQ4원시 생리 신호(심전도, EDA)가 연속적인 정서 예측을 위한 엔드 투 엔드 모델에서 효과적으로 활용될 수 있는가?
RQ5엔드 투 엔드 학습에서 음성, 영상 및 생리 모달리티의 융합은 차원 정서 인식에 얼마나 효과적인가?

주요 결과

End2You는 RECOLA 테스트 세트에서 음성 모달리티에서 각각 각각의 arousal에 대해 CCC 0.669, valence에 대해 0.286를 기록하며, 베이스라인(0.648 및 0.375)을 초월했습니다.
영상 모달리티에서는 arousal에 대해 CCC 0.358, valence에 대해 0.561을 기록하며, 베이스라인(0.272 및 0.507)을 초월했고, 우승자의 성능에 가까워졌습니다.
생리 모달리티(심전도)에서는 arousal에 대해 CCC 0.154, valence에 대해 0.052를 기록하며, 베이스라인보다 略적으로 낮았지만 원시 신호를 사용한 가능성은 입증했습니다.
다중모달 모델은 arousal에 대해 CCC 0.672, valence에 대해 0.521를 기록하며, 베이스라인(0.683 및 0.639)과 유사했지만, 대회 최우승자(0.770 및 0.687)에 비해 뒤처졌습니다.
최우승자와의 성능 격차는 심박수 변동성(HRV)과 같은 수동으로 설계된 생리 특징을 사용한 덕분이며, 이는 원시 심전도 및 EDA 신호보다 더 구분력 있는 정보를 제공하기 때문입니다.
음성 및 영상용 사전 학습된 단모달 모델은 공개되어 있어, 새로운 데이터셋에서 전이 학습 및 신속한 프로토타이핑을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.