QUICK REVIEW

[論文レビュー] SLTUNET: A Simple Unified Model for Sign Language Translation

Biao Zhang, Mathias Müller|arXiv (Cornell University)|May 2, 2023

Hand Gesture Recognition Systems被引用数 14

ひとこと要約

SLTUnet は、複数のSLT関連タスク（Sign2Gloss、Sign2Text、Gloss2Text）を同時に扱う統一型のエンコーダ-デコーダモデルであり、機械翻訳データを活用して手話翻訳を改善します。PHOENIX-2014T と CSL-Daily で競争力のある、または最先端の結果を達成し、より大規模な DGS3-T データセットでも利得を示します。

ABSTRACT

Despite recent successes with neural models for sign language translation (SLT), translation quality still lags behind spoken languages because of the data scarcity and modality gap between sign video and text. To address both problems, we investigate strategies for cross-modality representation sharing for SLT. We propose SLTUNET, a simple unified neural model designed to support multiple SLTrelated tasks jointly, such as sign-to-gloss, gloss-to-text and sign-to-text translation. Jointly modeling different tasks endows SLTUNET with the capability to explore the cross-task relatedness that could help narrow the modality gap. In addition, this allows us to leverage the knowledge from external resources, such as abundant parallel data used for spoken-language machine translation (MT). We show in experiments that SLTUNET achieves competitive and even state-of-the-art performance on PHOENIX-2014T and CSL-Daily when augmented with MT data and equipped with a set of optimization techniques. We further use the DGS Corpus for end-to-end SLT for the first time. It covers broader domains with a significantly larger vocabulary, which is more challenging and which we consider to allow for a more realistic assessment of the current state of SLT than the former two. Still, SLTUNET obtains improved results on the DGS Corpus. Code is available at https://github.com/bzhangGo/sltunet.

研究の動機と目的

手話翻訳におけるデータ不足とモダリティギャップを動機づけ、対処する。
単一のネットワークで複数のSLT関連タスクをサポートする、シンプルな統一モデル（SLTUnet）を提案する。
Sign2Text翻訳を改善するためのクロスタスクおよびクロスモダリティ転送を調査する。
標準的なSLTベンチマークと、より大規模で現実的なデータセットで評価し、一般化を評価する。
SLTUnetのためのモデル容量と正則化のバランスを取る最適化技術を探る。

提案手法

Transformerをバックボーンとしたエンコーダ-デコーダアーキテクチャ。
モダリティ別のエンコーダ（視覚・テキスト）を分離し、普遍的な特徴のための共有エンコーダを設ける。
生成を guiding するために入力にタスクタグ埋め込みを付加する（多言語MTに類似したマルチタスク）。
Sign2Gloss、Sign2Text、Gloss2Text、および機械翻訳データを結合した共同訓練目的関数（Equation 4）。
Sign2Text の訓練時に、サインエンコーダに対するオプションのCTC正則化（α · L_CTC）。
モダリティ固有のモデリング、正則化、およびデータ拡張を含むアブレーションに基づく最適化技術でサンプル効率を向上させる。

実験結果

リサーチクエスチョン

RQ1単一の統一モデルが複数のSLT関連タスクを効果的に学習し、クロスタスク転送を通じてSign2Textを改善できるか？
RQ2MTデータの組み込みと適切な正則化により、SLTUnetが標準的なSLTベンチマークでタスク別ベースラインを上回るか？
RQ3モダリティ固有パラメータと共有パラメータのどちらがSLTの性能に影響を与えるか？
RQ4従来のSLTベンチマークと比べて、大規模でより多様なデータ（DGS3-T）に対してSLTUnetはどう性能を示すか？
RQ5SLTUnetにおいて、容量と正則化のバランスを最適化する選択肢はどれか？

主な発見

SLTUnetはPHOENIX-2014TとCSL-Dailyで競争力のある、または最先端の結果を達成し、特にMTデータと最適化手法を用いると効果的。
SLTUnet内でSign2Gloss、Sign2Text、Gloss2Textの共同モデリングは翻訳精度を高める一方、Text2Glossを追加すると性能が低下する場合がある。
MTデータの組み込みは追加の利得をもたらすが改善は穏やかであり、より大容量のモデリングを可能にするのに役立つ。
モダリティ固有のエンコーダと共有バックボーンを組み合わせることで、完全に共有パラメータよりSLTUnetの性能が向上する。
より大規模なDGS3-TデータセットではSLTUnetは改良を示すものの、エンドツーエンドのSLTは幻出と手話データの高いばらつきのため、依然として難しい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。