QUICK REVIEW

[논문 리뷰] Sign Language Translation with Transformers.

Kayo Yin|arXiv (Cornell University)|2020. 04. 01.

Hand Gesture Recognition Systems참고 문헌 53인용 수 13

한 줄 요약

이 논문은 엔드투엔드 글로스-텍스트 번역을 위한 트랜스포머 네트워크를 활용하여 수어 번역(SLT)을 향상시키며, 글로스 예측을 위한 공간-시간 다중단서(STMC) 네트워크를 도입한다. 최신 기술 성능을 달성하여, RWTH-PHOENIX-Weather 2014T와 ASLG-PC12 데이터셋에서 각각 BLEU-4 점수를 5점 이상, 7점 이상 향상시키며, 특히 실제 글로스가 아닌 예측된 글로스를 번역할 경우 더 큰 향상 효과를 보인다.

ABSTRACT

Sign Language Translation (SLT) first uses a Sign Language Recognition (SLR) system to extract sign language glosses from videos. Then, a translation system generates spoken language translations from the sign language glosses. Though SLT has gathered interest recently, little study has been performed on the translation system. This paper focuses on the translation system and improves performance by utilizing Transformer networks. We report a wide range of experimental results for various Transformer setups and introduce the use of Spatial-Temporal Multi-Cue (STMC) networks in an end-to-end SLT system with Transformer. We perform experiments on RWTH-PHOENIX-Weather 2014T, a challenging SLT benchmark dataset of German sign language, and ASLG-PC12, a dataset involving American Sign Language (ASL) recently used in gloss-to-text translation. Our methodology improves on the current state-of-the-art by over 5 and 7 points respectively in BLEU-4 score on ground truth glosses and by using an STMC network to predict glosses of the RWTH-PHOENIX-Weather 2014T dataset. On the ASLG-PC12 corpus, we report an improvement of over 16 points in BLEU-4. Our findings also demonstrate that end-to-end translation on predicted glosses provides even better performance than translation on ground truth glosses. This shows potential for further improvement in SLT by either jointly training the SLR and translation systems or by revising the gloss annotation system.

연구 동기 및 목표

수어 번역(SLT) 시스템의 번역 컴포넌트 성능 향상에 초점을 맞추며, 이는 이전에 제한적으로 다뤄진 주제이다.
수어의 글로스-텍스트 번역에 트랜스포머 기반 아키텍처의 효과성을 탐구한다.
수어 인식 및 번역 컴포넌트를 함께 최적화함으로써 엔드투엔드 훈련의 영향을 탐색한다.
실제 글로스가 아닌 예측된 글로스를 사용할 경우 번역 성능이 향상되는지 평가한다.

제안 방법

엔드투엔드 SLT 시스템의 번역 헤드로 트랜스포머 네트워크를 핵심 아키텍처로 사용한다.
비디오 입력으로부터 수어 글로스 예측을 향상시키기 위해 공간-시간 다중단서(STMC) 네트워크를 도입한다.
수어 인식 및 번역 컴포넌트를 함께 최적화하기 위해 시스템을 엔드투엔드로 훈련시킨다.
실제 글로스가 아닌 STMC 네트워크에서 예측한 글로스 시퀀스를 트랜스포머 번역 모델의 입력으로 사용한다.
글로스 시퀀스의 장거리 의존성을 모델링하기 위해 트랜스포머 내 표준 어텐션 메커니즘을 적용한다.
두 가지 벤치마크 데이터셋인 RWTH-PHOENIX-Weather 2014T와 ASLG-PC12에서 BLEU-4를 주요 평가 지표로 사용하여 성능을 평가한다.

실험 결과

연구 질문

RQ1트랜스포머 기반 모델은 수어 번역의 글로스-텍스트 번역 품질을 크게 향상시킬 수 있는가?
RQ2공간-시간 다중단서(STMC) 네트워크를 통합함으로써 글로스 예측 정확도가 향상되고, 그로 인해 번역 성능도 향상되는가?
RQ3SLR 및 번역 시스템을 엔드투엔드로 훈련시키는 것이 실제 글로스를 입력으로 사용하는 것보다 더 효과적인가?
RQ4실제 글로스가 아닌 예측된 글로스를 번역할 경우 더 나은 성능을 내는가?

주요 결과

제안된 트랜스포머 기반 번역 시스템은 실제 글로스를 사용할 경우 RWTH-PHOENIX-Weather 2014T 데이터셋에서 BLEU-4 점수를 5점 이상 향상시켰다.
동일한 데이터셋에서 STMC 예측 글로스를 사용할 경우 BLEU-4 점수 향상 폭이 7점 이상으로 더욱 높았다.
ASLG-PC12 데이터셋에서는 이전 최신 기술 대비 BLEU-4 점수 향상 폭이 16점 이상으로 나타났다.
예측 글로스를 대상으로 엔드투엔드 번역을 수행한 결과, 실제 글로스를 사용한 번역보다 성능이 뛰어나, 공동 훈련을 통한 추가 향상 가능성을 시사한다.
결과적으로 글로스 애너테이션 과정을 개선하거나 SLR 및 번역 컴포넌트를 공동으로 훈련시키는 것이 전체 SLT 성능 향상에 크게 기여할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.