QUICK REVIEW

[논문 리뷰] Role of Morphology Injection in SMT: A Case Study from Indian Language Perspective

S Sreelekha, Pushpak Bhattacharyya|arXiv (Cornell University)|2017. 09. 15.

Natural Language Processing Techniques참고 문헌 41인용 수 8

한 줄 요약

이 논문은 힌두어, 마라티어, 말라요람어와 같은 어형이 풍부한 인도 언어에 대해 어형 풍부한 문장 기반 통계적 기계 번역(PBSMT)에서 데이터 희소성 문제를 해결하기 위해 어형 주입(morphology injection)을 제안한다. 훈련 코퍼스에 존재하지 않는 어형 형태를 생성하고 주입함으로써 번역 품질이 크게 향상되며, 적합성과 유창성 측면에서 각각 수십 배의 향상 효과를 달성한다.

ABSTRACT

Phrase-based Statistical Machine Translation (PBSMT) is commonly used for automatic translation. However, PBSMT runs into difficulty when either or both of the source and target languages are morphologically rich. Factored models are found to be useful for such cases, as they consider word as a vector of factors. These factors can contain any information about the surface word and use it while translating. The objective of the current work is to handle morphological inflections in Hindi, Marathi, and Malayalam using Factored translation models when translating from English. Statistical MT approaches face the problem of data sparsity when translating to a morphologically rich language. It is very unlikely for a parallel corpus to contain all morphological forms of words. We propose a solution to generate these unseen morphological forms and inject them into the original training corpus. We propose a simple and effective solution based on enriching the input with various morphological forms of words. We observe that morphology injection improves the quality of translation in terms of both adequacy and fluency. We verify this with experiments on three morphologically rich languages when translating from English. From the detailed evaluations, we observed an order of magnitude improvement in translation quality.

연구 동기 및 목표

영어에서 어형이 풍부한 인도 언어로의 번역을 위한 문장 기반 통계적 기계 번역(PBSMT)에서 데이터 희소성 문제를 해결하기 위해.
힌두어, 마라티어, 말라요람어와 같은 언어에서 평행 코퍼스에 존재하지 않는 어형 형태의 문제를 해결하기 위해.
훈련 데이터의 어형 강화를 통해 번역의 적합성과 유창성 측면에서 번역 품질을 향상시키기 위해.
주입된 어형 형태로 개선된 요인 번역 모델의 효과성을 평가하기 위해.

제안 방법

언어 규칙 또는 어형 분석기를 사용하여 원천 언어의 존재하지 않는 어형 형태를 생성한다.
이러한 생성된 형태를 원본 단일 언어 및 평행 코퍼스에 주입하여 훈련 데이터를 강화한다.
각 단어를 어형 구성 요소를 포함한 요소의 벡터로 표현하는 요인 번역 모델을 사용한다.
강화된 훈련 데이터를 활용해 PBSMT 시스템을 재학습함으로써 드물거나 존재하지 않는 변형 형태에 대한 일반화 능력을 향상시킨다.
이 방법은 요소 모델이 자어 구성 요소를 모델링할 수 있는 능력을 활용하여, 대응 및 번역 결정을 향상시킨다.

실험 결과

연구 질문

RQ1훈련 데이터에 합성 어형 형태를 주입함으로써 어형이 풍부한 언어의 PBSMT에서 번역 품질에 어떤 영향을 미치는가?
RQ2영어에서 힌두어, 마라티어, 말라요람어로의 번역에서 어형 주입이 데이터 희소성 문제를 어느 정도 줄일 수 있는가?
RQ3주입된 어형 형태를 포함한 요인 모델 사용이 번역의 유창성과 적합성 측면에서 향상 효과를 가져오는가?
RQ4어형 주입이 어형이 풍부한 다양한 인도 언어에 미치는 상대적 영향은 어떠한가?

주요 결과

어형 주입은 번역 품질을 크게 향상시키며, 번역 성능에 대해 수십 배의 향상 효과를 보였다.
이 방법은 힌두어, 마라티어, 말라요람어에서 번역의 유창성과 적합성을 모두 향상시켰다.
요인 번역 모델은 주입된 어형 형태로부터 상당한 이점을 얻었으며, 데이터 희소성의 영향을 줄였다.
시험된 세 가지 어형이 풍부한 인도 언어 전반에 걸쳐 일관된 향상 효과를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.