[論文レビュー] Indian Sign Language Recognition Using Mediapipe Holistic
本稿はMediapipe Holisticを用いたIndian Sign Languageの手話認識システムを提案し、静的手話とジェスチャー手話のモデルとしてCNNとLSTMを比較する。両方の状況でCNNの有効性を強調する。
Deaf individuals confront significant communication obstacles on a daily basis. Their inability to hear makes it difficult for them to communicate with those who do not understand sign language. Moreover, it presents difficulties in educational, occupational, and social contexts. By providing alternative communication channels, technology can play a crucial role in overcoming these obstacles. One such technology that can facilitate communication between deaf and hearing individuals is sign language recognition. We will create a robust system for sign language recognition in order to convert Indian Sign Language to text or speech. We will evaluate the proposed system and compare CNN and LSTM models. Since there are both static and gesture sign languages, a robust model is required to distinguish between them. In this study, we discovered that a CNN model captures letters and characters for recognition of static sign language better than an LSTM model, but it outperforms CNN by monitoring hands, faces, and pose in gesture sign language phrases and sentences. The creation of a text-to-sign language paradigm is essential since it will enhance the sign language-dependent deaf and hard-of-hearing population's communication skills. Even though the sign-to-text translation is just one side of communication, not all deaf or hard-of-hearing people are proficient in reading or writing text. Some may have difficulty comprehending written language due to educational or literacy issues. Therefore, a text-to-sign language paradigm would allow them to comprehend text-based information and participate in a variety of social, educational, and professional settings. Keywords: deaf and hard-of-hearing, DHH, Indian sign language, CNN, LSTM, static and gesture sign languages, text-to-sign language model, MediaPipe Holistic, sign language recognition, SLR, SLT
研究の動機と目的
- 教育、職場、社会の場で聴覚障害のある人々のコミュニケーションを容易にすることを動機とする。
- Indian Sign Languageをテキストまたは音声に変換する堅牢な手話認識システムを開発する。
- 静的手話およびジェスチャー手話のためにCNNとLSTMモデルを評価・比較する。
提案手法
- Mediapipe Holisticを用いて手、顔、姿勢を含む全体特徴を抽出する。
- 静的手話認識(文字/文字)に対してCNNとLSTMモデルを訓練・比較する。
- 全体的な手掛かりが用いられるジェスチャー手話のフレーズや文に評価を拡張する。
- コミュニケーションを支援するテキストから手話への言語変換パラダイムにおけるモデルの性能を評価する。
実験結果
リサーチクエスチョン
- RQ1CNNは静的なインド手話のサインを全体特徴を用いてLSTMより優れて認識できるか?
- RQ2CNNは手、顔、姿勢といった全体的手掛かりを活用してジェスチャー手話認識を改善できるか?
- RQ3テキストから手話へのパラダイムはDHH人口の情報アクセスのために実現可能で有益か?
主な発見
- CNNは静的手話の文字/文字をLSTMよりもうまく捉える。
- CNNは手、顔、姿勢を活用することでジェスチャー手話のフレーズや文の認識を改善する。
- 本研究は手話ベースのコミュニケーションを支援するテキストから手話へのフレームワークの可能性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。