QUICK REVIEW

[論文レビュー] Bengali to Assamese Statistical Machine Translation using Moses (Corpus Based)

Nayan Jyoti Kalita, Md Baharul Islam|arXiv (Cornell University)|Jan 1, 2015

Natural Language Processing Techniques参考文献 4被引用数 4

ひとこと要約

本稿では、17,100文の並列コーパスを用いてトレーニングされたMosesツールキットを用いた、ベンガル語からアッサミ語へのフレーズベース統計的機械翻訳（SMT）システムを提示する。BLEUスコアが16.3に達したが、訓練データが少ないことと語彙的曖昧性のため、システムには制限がある。将来的にはより大きなコーパスと構文特徴の統合による改善が期待される。

ABSTRACT

Machine dialect interpretation assumes a real part in encouraging man-machine correspondence and in addition men-men correspondence in Natural Language Processing (NLP). Machine Translation (MT) alludes to utilizing machine to change one dialect to an alternate. Statistical Machine Translation is a type of MT consisting of Language Model (LM), Translation Model (TM) and decoder. In this paper, Bengali to Assamese Statistical Machine Translation Model has been created by utilizing Moses. Other translation tools like IRSTLM for Language Model and GIZA-PP-V1.0.7 for Translation model are utilized within this framework which is accessible in Linux situations. The purpose of the LM is to encourage fluent output and the purpose of TM is to encourage similarity between input and output, the decoder increases the probability of translated text in target language. A parallel corpus of 17100 sentences in Bengali and Assamese has been utilized for preparing within this framework. Measurable MT procedures have not so far been generally investigated for Indian dialects. It might be intriguing to discover to what degree these models can help the immense continuous MT deliberations in the nation.

研究の動機と目的

構造的に類似した低リソース言語ペア、ベンガル語-アッサミ語向けの統計的機械翻訳システムの開発を目的とする。
オープンソースツール（Moses、GIZA++、IRSTLM）を用いたフレーズベースSMTの有効性を、低リソースなインド語文脈において評価すること。
コーパスサイズ、語彙的アライメントの曖昧性、構文タグの欠如による翻訳品質の制限要因を同定すること。
将来的には、より大きなマルチリンガルコーパスと翻訳モデルへの品詞（POS）タギングの統合による改善を検討すること。

提案手法

17,100組のベンガル語-アッサミ語文の並列コーパスを用いて、Mosesツールキットでフレーズベース統計的機械翻訳システムをトレーニングした。
GIZA++-PP-V1.0.7を用いて、元言語と対象言語間の語アライメントおよびフレーズテーブルを生成した。
アッサミ語（対象言語）の自然な表現を向上させるために、IRSTLMを用いて言語モデルを構築した。
前処理の各ステップで一貫性を確保するため、トレーニング、チューニング、テストデータをトークン化およびトゥルーキャスティングした。
別個のホールドアウト開発セットを用いて、システムパラメータを最適化した。
200～300文のホールドアウトテストセット上でBLEUスコアを用いて翻訳品質を評価した。

実験結果

リサーチクエスチョン

RQ1構造的に類似したインド語（例：ベンガル語とアッサミ語）間の翻訳に、フレーズベースSMTアプローチはどの程度有効であるか？
RQ2コーパスサイズが低リソース言語ペアにおけるBLEUスコアおよび翻訳品質に与える影響は何か？
RQ3翻訳辞書内の語彙的曖昧性が翻訳パフォーマンスをどの程度低下させるか？
RQ4品詞（POS）タギングの統合は、判別的SMTフレームワークにおける翻訳精度を向上させることができるか？

主な発見

テストセットでBLEUスコアが16.3に達したが、これは訓練データが不十分なため、翻訳品質が限定的であることを示唆している。
200文セットでは17.5%、300文セットでは13.7%に誤り率が低下し、より大きなテストセットでやや改善が見られた。
主な誤り原因は語彙カバレッジの不足、曖昧な語訳（例：ベンガル語の「শহর」がアッサミ語で「নগৰ」および「চহৰ」と両方対応）および限られたPOSタギングに起因する。
システムは低リソースインド語翻訳の可能性を示したが、より大きなドメイン多様なコーパスの必要性を浮き彫りにした。
BLEUスコアは、特に低リソース環境下では、異なるコーパス間比較に信頼性が低いことが判明した。
将来的にはコーパスの拡張と、POSタグのような浅い構文特徴の統合により、改善が期待される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。