QUICK REVIEW

[論文レビュー] Sign Language Translation with Transformers.

Kayo Yin|arXiv (Cornell University)|Apr 1, 2020

Hand Gesture Recognition Systems参考文献 53被引用数 13

ひとこと要約

この論文は、エンドツーエンドの gloss-to-text 翻訳のためのトランスフォーマーネットワークを活用し、gloss 予測のための空間的・時間的マルチキューブ (STMC) ネットワークを導入することで、符号言語翻訳 (SLT) を改善している。最先端の性能を達成し、RWTH-PHOENIX-Weather 2014T および ASLG-PC12 データセットでそれぞれ 5 点以上、7 点以上の BLEU-4 スコアの向上を達成している。特に、真値ではなく予測された gloss を用いた翻訳では、さらに顕著な向上が見られた。

ABSTRACT

Sign Language Translation (SLT) first uses a Sign Language Recognition (SLR) system to extract sign language glosses from videos. Then, a translation system generates spoken language translations from the sign language glosses. Though SLT has gathered interest recently, little study has been performed on the translation system. This paper focuses on the translation system and improves performance by utilizing Transformer networks. We report a wide range of experimental results for various Transformer setups and introduce the use of Spatial-Temporal Multi-Cue (STMC) networks in an end-to-end SLT system with Transformer. We perform experiments on RWTH-PHOENIX-Weather 2014T, a challenging SLT benchmark dataset of German sign language, and ASLG-PC12, a dataset involving American Sign Language (ASL) recently used in gloss-to-text translation. Our methodology improves on the current state-of-the-art by over 5 and 7 points respectively in BLEU-4 score on ground truth glosses and by using an STMC network to predict glosses of the RWTH-PHOENIX-Weather 2014T dataset. On the ASLG-PC12 corpus, we report an improvement of over 16 points in BLEU-4. Our findings also demonstrate that end-to-end translation on predicted glosses provides even better performance than translation on ground truth glosses. This shows potential for further improvement in SLT by either jointly training the SLR and translation systems or by revising the gloss annotation system.

研究の動機と目的

符号言語翻訳 (SLT) システムにおける翻訳部のパフォーマンス向上を図ること。これは、これまでの研究で十分に注目されていなかった分野である。
トランスフォーマーに基づくアーキテクチャが、符号言語の gloss-to-text 翻訳にどの程度有効であるかを調査すること。
符号言語認識と翻訳部を同時に最適化することで得られるエンドツーエンド学習の有効性を検討すること。
真値 gloss の代わりに予測された gloss を用いることで、翻訳パフォーマンスが向上するかどうかを評価すること。

提案手法

エンドツーエンド SLT システムの翻訳ヘッドとして、トランスフォーマーネットワークをコアアーキテクチャとして採用すること。
動画入力からの符号言語 gloss 予測を向上させるために、空間的・時間的マルチキューブ (STMC) ネットワークを導入すること。
符号言語認識と翻訳部を同時に最適化するエンドツーエンドの学習を実施すること。
真値 gloss の代わりに、STMC ネットワークから得られた予測 gloss シーケンスをトランスフォーマー翻訳モデルの入力として使用すること。
gloss シーケンス内の長距離依存関係をモデル化するために、トランスフォーマーに標準的なアテンション機構を適用すること。
2 つのベンチマークデータセット（RWTH-PHOENIX-Weather 2014T および ASLG-PC12）を用いて、BLEU-4 を主な指標としてパフォーマンスを評価すること。

実験結果

リサーチクエスチョン

RQ1トランスフォーマーに基づくモデルは、符号言語翻訳における gloss-to-text 翻訳の質を顕著に向上させることができるか？
RQ2空間的・時間的マルチキューブ (STMC) ネットワークを組み込むことで、gloss 予測の正確性が向上し、結果として翻訳パフォーマンスが向上するか？
RQ3SLR と翻訳部をエンドツーエンドで学習させることは、真値 gloss を入力として使用する場合よりも効果的か？
RQ4真値 gloss の代わりに予測された gloss を用いた翻訳が、より優れた結果をもたらすか？

主な発見

提案されたトランスフォーマー基盤の翻訳システムは、真値 gloss を使用した場合、RWTH-PHOENIX-Weather 2014T データセットで BLEU-4 スコアが 5 点以上向上した。
同じデータセットにおいて、STMC で予測された gloss を使用した場合、BLEU-4 スコアは 7 点以上向上した。
ASLG-PC12 データセットでは、先行研究の最先端手法と比較して、BLEU-4 スコアが 16 点以上向上した。
予測された gloss を用いたエンドツーエンド翻訳は、真値 gloss を用いた翻訳を上回り、共同学習によるさらなる向上の可能性を示している。
gloss アノテーションのプロセスを精緻化する、あるいは SLR と翻訳部を共同で学習させることで、全体の SLT パフォーマンスを顕著に向上させられる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。