QUICK REVIEW

[논문 리뷰] A Multilingual Parallel Corpora Collection Effort for Indian Languages

Shashank Siripragada, Jerin Philip|arXiv (Cornell University)|2020. 07. 15.

Natural Language Processing Techniques참고 문헌 30인용 수 29

한 줄 요약

이 논문은 고도로 발전한 기계 번역 및 다국어 간 검색 기술을 활용해 다국어 온라인 자료에서 수집한 10개 인도어 언어—힌두어, 텔루구어, 타밀어, 말라요람어, 구자라트어, 우르두어, 법인어, 오리야어, 마라티어, 펀자브어 및 영어—를 포함하는 대규모 다국어 병렬 코퍼스를 제시한다. 이 데이터셋은 기존의 저자원 언어 자원을 크게 확장하며, 평가를 위해 별도로 독립된 테스트 세트를 포함하고 있어, 인도어 언어 간 개선된 저자원 신경 기계 번역을 가능하게 한다.

ABSTRACT

We present sentence aligned parallel corpora across 10 Indian Languages - Hindi, Telugu, Tamil, Malayalam, Gujarati, Urdu, Bengali, Oriya, Marathi, Punjabi, and English - many of which are categorized as low resource. The corpora are compiled from online sources which have content shared across languages. The corpora presented significantly extends present resources that are either not large enough or are restricted to a specific domain (such as health). We also provide a separate test corpus compiled from an independent online source that can be independently used for validating the performance in 10 Indian languages. Alongside, we report on the methods of constructing such corpora using tools enabled by recent advances in machine translation and cross-lingual retrieval using deep neural network based methods.

연구 동기 및 목표

저자원 인도어 언어를 위한 대규모 다국어 병렬 코퍼스의 부족 문제를 해결하기 위해.
온라인 다국어 콘텐츠를 활용해 다양한 인도어 언어 간 병렬 텍스트를 확장 가능한 방법으로 수집하기 위해.
여러 인도어 언어와 영어를 아우르는 고품질의 문장 수준 정렬 병렬 코퍼스를 구축하기 위해.
저자원 환경에서 기계 번역 시스템의 신뢰성 있는 평가를 위해 별도의 독립된 테스트 코퍼스를 제공하기 위해.
최신 신경 기계 번역 및 교차 언어 임bedding 모델을 활용해 효율적이고 정확한 병렬 문장 정렬을 수행하기 위해.

제안 방법

동일한 콘텐츠가 여러 인도어 언어로 게재된 온라인 다국어 콘텐츠 소스를 활용하였다.
원천 언어와 대상 언어 간의 병렬 문장 정렬을 위해 신경 기계 번역(NMT) 모델을 적용하였다.
다양한 언어 간 후보 병렬 문장을 식별하기 위해 딥 네URAL 네트워크 기반의 교차 언어 검색 방법을 활용하였다.
자동 정렬과 히ュ리스틱 필터링의 조합을 통해 병렬 코퍼스의 품질과 일관성을 향상시켰다.
편향 없는 평가를 보장하기 위해 별도의 온라인 소스에서 수집 및 정제한 독립된 테스트 코퍼스를 확보하였다.
코퍼스 구축 과정에서 저품질 또는 노이즈가 많은 문장 쌍을 제거하기 위해 필터링 및 정제 히ュ리스틱을 적용하였다.

실험 결과

연구 질문

RQ1저자원 인도어 언어를 위한 대규모 다국어 병렬 코퍼스는 어떻게 효율적으로 구축할 수 있는가?
RQ2신경 기계 번역 및 교차 언어 검색 기술이 병렬 코퍼스 수집의 품질과 확장성에 얼마나 기여할 수 있는가?
RQ310개의 인도어 언어와 영어를 아우르는 단일 통합 병렬 코퍼스는 저자원 신경 기계 번역에 효과적으로 기여할 수 있는가?
RQ4이 코퍼스를 기반으로 훈련된 기계 번역 모델의 성능은 독립된 테스트 세트에서 어떻게 평가되는가?
RQ5저자원 환경에서 모델 평가의 신뢰성에 대해 별도의 독립된 테스트 세트를 사용할 경우 어떤 영향을 미치는가?

주요 결과

저자들은 성공적으로 10개의 인도어 언어와 영어 간 대규모 문장 수준 정렬 병렬 코퍼스를 구축하였으며, 기존 자원을 크게 확장하였다.
코퍼스는 별도의 독립된 테스트 세트를 포함하고 있으며, 이는 번역 모델의 신뢰성 있고 편향 없는 평가를 가능하게 한다.
신경 기계 번역 및 교차 언어 검색 기술의 활용으로 다양한 언어 쌍 간에 효율적이고 확장 가능한 병렬 문장 수집이 가능해졌다.
결과적으로 생성된 데이터셋은 인도어 언어 간 저자원 신경 기계 번역 시스템의 훈련과 평가를 지원한다.
최신 NLP 기술을 활용한 현대적 접근법이 저자원 언어 환경에서 다국어 병렬 코퍼스를 구축하는 데 실현 가능하고 효과적임을 입증하였다.
이 데이터셋은 공개되어 있으며, 인도어 언어의 저자원 기계 번역 기술 발전을 위한 목적을 가지고 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.