QUICK REVIEW

[논문 리뷰] SLTUNET: A Simple Unified Model for Sign Language Translation

Biao Zhang, Mathias Müller|arXiv (Cornell University)|2023. 05. 02.

Hand Gesture Recognition Systems인용 수 14

한 줄 요약

SLTUnet은 여러 SLT 관련 작업(Sign2Gloss, Sign2Text, Gloss2Text)을 함께 처리하고 머신 번역 데이터를 활용하여 수화 번역을 개선하는 통합 인코더-디코더 모델로, PHOENIX-2014T와 CSL-Daily에서 경쟁력 있거나 최첨단 결과를 달성하고 더 큰 DGS3-T 데이터셋에서 이득을 보인다.

ABSTRACT

Despite recent successes with neural models for sign language translation (SLT), translation quality still lags behind spoken languages because of the data scarcity and modality gap between sign video and text. To address both problems, we investigate strategies for cross-modality representation sharing for SLT. We propose SLTUNET, a simple unified neural model designed to support multiple SLTrelated tasks jointly, such as sign-to-gloss, gloss-to-text and sign-to-text translation. Jointly modeling different tasks endows SLTUNET with the capability to explore the cross-task relatedness that could help narrow the modality gap. In addition, this allows us to leverage the knowledge from external resources, such as abundant parallel data used for spoken-language machine translation (MT). We show in experiments that SLTUNET achieves competitive and even state-of-the-art performance on PHOENIX-2014T and CSL-Daily when augmented with MT data and equipped with a set of optimization techniques. We further use the DGS Corpus for end-to-end SLT for the first time. It covers broader domains with a significantly larger vocabulary, which is more challenging and which we consider to allow for a more realistic assessment of the current state of SLT than the former two. Still, SLTUNET obtains improved results on the DGS Corpus. Code is available at https://github.com/bzhangGo/sltunet.

연구 동기 및 목표

데이터 희소성과 모달리티 격차를 해결하기 위한 동기 부여와 연구 목표 제시.
단일 네트워크에서 여러 SLT 관련 태스크를 지원하는 간단한 통합 모델(SLTUnet) 제안.
태스크 간 전이 및 모달리티 간 전이를 통해 Sign2Text 번역 성능 개선 연구.
일반화 능력을 평가하기 위한 표준 SLT 벤치마크와 더 크고 현실적인 데이터셋에서의 평가.
SLTUnet의 모델 용량과 규제 사이의 균형을 맞추는 최적화 기법 탐색.

제안 방법

Transformer 백본을 가진 인코더-디코더 아키텍처.
다른 모달리티별 인코더(시각적/텍스트)와 보편적 특징을 위한 공유 인코더를 분리.
생성 지시를 위한 태스크 태그 임베딩을 입력에 첨가(다중 작업을 다국어 MT와 유사하게 접근).
Sign2Gloss, Sign2Text, Gloss2Text 및 Machine Translation 데이터를 결합한 공동 학습 목표(Equation 4).
훈련 중 Sign2Text에 대해sign 인코더에서 CTC 규제(alpha · L_CTC) 적용 가능.
샘플 효율성을 높이기 위한 모달리티별 모델링, 정규화, 데이터 증강 등의 Ablation 기반 최적화 기법.

실험 결과

연구 질문

RQ1단일 통합 모델이 여러 SLT 관련 태스크를 효과적으로 학습하고 교차 태스크 전이를 통해 Sign2Text를 개선할 수 있는가?
RQ2MT 데이터를 도입하고 적절한 정규화가 SLTUnet을 표준 SLT 벤치마크의 태스크별 baselines보다 앞서게 할 수 있는가?
RQ3모달리티별 매개변수 versus 공유 매개변수의 차이가 SLT 성능에 어떤 영향을 미치는가?
RQ4전통적인 SLT 벤치마크와 비교하여 더 크고 다양한 데이터(DGS3-T)에서 SLTUnet의 성능은 어떠한가?
RQ5SLTUnet의 용량과 규제 사이의 균형을 가장 잘 맞추는 최적화 선택은 무엇인가?

주요 결과

SLTUnet은 MT 데이터와 최적화 기법으로 보강될 때 PHOENIX-2014T 및 CSL-Daily에서 경쟁력 있고 최첨단 결과를 달성한다.
Sign2Gloss, Sign2Text, Gloss2Text를 SLTUnet 내에서 공동 모델링하면 번역 이득이 나타나고 Text2Gloss를 추가하면 성능이 악화될 수 있다.
MT 데이터의 도입은 추가 이득을 제공하지만 개선폭은 미미하며, 더 큰 용량 모델링을 가능하게 돕는다.
모달리티별 인코더와 공유 백본의 조합이 완전히 공유된 매개변수 대비 SLTUnet의 성능을 향상시킨다.
더 큰 데이터세트인 DGS3-T에서 여전히 개선을 제공하지만, 엔드-투-엔드 SLT는 고도화된 환각과 높은 변이성으로 도전적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.