QUICK REVIEW

[논문 리뷰] YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus

David Uthus, Garrett Tanzer|arXiv (Cornell University)|2023. 06. 27.

Hand Gesture Recognition Systems인용 수 9

한 줄 요약

YouTube-ASL를 도입하고 YouTube에서 채굴한 대규모 개방 도메인 ASL-영어 병렬 말뭉치를 제시하며 How2Sign에서 제로샷 결과로 최첨단 ASL-영어 번역을 보여준다.

ABSTRACT

Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results.

연구 동기 및 목표

웹 데이터에서 크고 다양한 ASL-영어 병렬 말뭉치를 생성하여 수화 ML의 데이터 병목 현상을 해결한다.
자동 태깅과 인간 선별을 이용한 개방 도메인 마이닝이 높은 품질의 ASL 자막과 화자 다양성을 제공한다는 것을 보여준다.
베이스라인 ASL-영어 번역 결과를 제공하여 벤치마크를 설정하고 제로샷 역량을 입증한다.

제안 방법

두 단계 데이터 수집: ASL을 포함할 가능성이 높은 YouTube 비디오에 대한 자동 태깅과 자막 정합성 및 품질에 대한 인간 선별.
전처리는 MediaPipe Holistic 랜드마크(손, 얼굴, 제한된 포즈)를 입력 특징으로 사용; 85개 선택된 랜드마크가 정규화되고 255차원 시퀀스로 다운샘플링된다.
T5 인코더-디코더 아키텍처를 기반으로 한 트랜스포머 계열의 베이스라인 모델; 입력 특징은 인코더로의 랜드마크 임베딩이며, 256 프레임 컨텍스트 윈도우와 128 프레임 디코더 윈도우를 사용한다.
훈련 방식은 How2Sign(H2S)만으로의 학습, YouTube-ASL(YT-ASL)만으로의 학습(How2Sign에서 제로샷), 혼합 데이터(YT-ASL + H2S), 그리고 YouTube-ASL을 먼저 학습한 뒤 How2Sign으로 파인튜닝하는 방식이 포함된다.
평가는 How2Sign에서 BLEU와 BLEURT를 사용하고 빔 서치(폭=5); 제로샷 및 파인튜닝 성능이 보고된다.

실험 결과

연구 질문

RQ1YouTube에서 채굴된 대규모 개방 도메인 ASL-영어 코퍼스가 ASL-영어 번역 벤치마크를 개선할 수 있는가?
RQ2영어 텍스트에 대한 사전 학습의 영향과 YouTube-ASL 데이터를 How2Sign 데이터와 혼합하는 것이 번역 품질에 미치는 영향은 무엇인가?
RQ3YouTube-ASL 데이터를 사용할 때 How2Sign에서의 제로샷 성능은 파인튜닝 성능과 어떻게 비교되는가?
RQ4YouTube-ASL 데이터셋은 규모와 화자 다양성 측면에서 기존 ASL 데이터셋에 비해 향상을 제공하는가?

주요 결과

Approach	Training Schedule	BLEU-1	BLEU-2	BLEU-3	BLEU	BLEURT
Álvarez et al. [3]	H2S	17.40	7.69	3.97	2.21	-
GloFE-VN [25]	H2S	14.94	7.27	3.93	2.24	31.65
Tarrés et al. [40]	H2S	34.01	19.30	12.18	8.03	-
Ours	YT-ASL	14.53	5.47	2.61	1.41	29.55
(no pretraining)	YT-ASL + H2S	28.60	14.56	8.68	5.60	37.72
	YT-ASL -> H2S	28.38	15.41	9.55	6.26	39.40
H2S		14.96	5.11	2.26	1.22	29.98
Ours	YT-ASL	20.93	10.35	6.14	3.95	34.98
(pretrained)	YT-ASL + H2S	36.35	23.00	16.13	11.89	44.78
	YT-ASL -> H2S	37.82	24.13	16.92	12.39	46.63

YouTube-ASL은 11,093개의 ASL 비디오, 약 984시간, 610,193개의 영어 자막(총 813시간의 자막) 및 2519개 이상의 채널을 화자 대리로 보유한다.
How2Sign에서 파인튜닝한 최첨단 성능: 12.39 BLEU로, 기존 SOTA 8.03 BLEU를 능가한다.
제로샷 BLEU 3.95로 비평형 도메인 외 번역 능력이 의미 있게 입증된다.
YT-ASL 단독 학습기준의 베이스라인은 점수가 낮고, 영어 텍스트 사전학습과 How2Sign으로의 파인튜닝이 성능을 크게 향상시킨다.
YT-ASL과 How2Sign 데이터를 섞고 그 후 파인튜닝하는 것이 최상의 결과를 낳으며(36.35 BLEU1, 23.00 BLEU2, 16.13 BLEU3, 11.89 BLEURT; 파인튜닝 시 12.39 BLEU),
YouTube-ASL는 상당한 화자 다양성과 실제 세계 도메인 커버리지를 제공하지만 배치 가능한 품질로의 배치 번역은 여전히 개선이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.