QUICK REVIEW

[논문 리뷰] WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia

Holger Schwenk, Vishrav Chaudhary|arXiv (Cornell University)|2019. 07. 10.

Natural Language Processing Techniques인용 수 67

한 줄 요약

WikiMatrix는 다국어 문장 임베딩과 마진 기반 거리 접근법을 사용하여 Wikipedia에서 135 million 병렬 문장을 1620 language pairs에서 자동으로 채굴하여 영어 중심 쌍을 넘어서는 광범위한 MT 커버리지를 가능하게 한다.

ABSTRACT

We present an approach based on multilingual sentence embeddings to automatically extract parallel sentences from the content of Wikipedia articles in 85 languages, including several dialects or low-resource languages. We do not limit the the extraction process to alignments with English, but systematically consider all possible language pairs. In total, we are able to extract 135M parallel sentences for 1620 different language pairs, out of which only 34M are aligned with English. This corpus of parallel sentences is freely available at https://github.com/facebookresearch/LASER/tree/master/tasks/WikiMatrix. To get an indication on the quality of the extracted bitexts, we train neural MT baseline systems on the mined data only for 1886 languages pairs, and evaluate them on the TED corpus, achieving strong BLEU scores for many language pairs. The WikiMatrix bitexts seem to be particularly interesting to train MT systems between distant languages without the need to pivot through English.

연구 동기 및 목표

영어 중심 쌍을 넘어서는 대규모 다국어 병렬 말뭉치의 필요성에 대해 동기를 부여한다.
Wikipedia에서 수백 개 언어에 걸친 병렬 문장을 추출하기 위한 확장 가능한 채굴 파이프라인을 제안한다.
다국어 문장 임베딩을 활용하여 공동 공간에서 언어 간 정렬을 가능하게 한다.
채굴된 데이터를 평가하기 위해 MT 시스템을 학습시키고 TED 및 관련 벤치마크에서 성능을 평가한다.

제안 방법

LASER 다국어 문장 임베딩을 사용하여 182개 언어의 문장을 공유 공간에 매핑한다.
임베딩 공간에서 마진 기반 기준을 적용하여 모든 언어 쌍에 걸친 상호 번역을 식별한다.
영어 피벗에 한정하지 않고 전체 Wikipedia 코퍼스를 대상으로 전 세계 채굴을 수행한다.
빠르고 GPU 가속 최근접 이웃 검색과 확장성을 위한 IVF 인덱싱과 64비트 프로덕트 양자화를 위한 FAISS를 사용한다.
채굴 전에 문장이 올바른 언어인지 확인하기 위해 중복 제거 및 언어 식별을 수행한다.

실험 결과

연구 질문

RQ1수천 개의 언어 쌍을 지지할 수 있는 단일 다국어 임베딩 공간이 신뢰할 수 있는 병렬 문장 채굴을 제공하는가?
RQ2마진 기반 유사도 기준이 대규모 이중언어 말뭉치 추출에서 절대 임계치와 비교해 어떤 차이가 있는가?
RQ3채굴된 WikiMatrix 데이터가 먼 언어 쌍의 MT 성능에 어떤 영향을 주는가?
RQ4전 세계적(문서-로컬이 아닌) 채굴에 의존하는 것이 병렬 문장 추출의 정밀도와 재현율에 어떤 영향을 주는가?

주요 결과

Wikipedia로부터 1620개 언어 쌍에 대해 135M 병렬 문장을 채굴하였고, 그중 34M개가 영어와 일치한다.
채굴 데이터로 학습된 NMT 모델은 TED에서 많은 언어 쌍에 대해 강력한 BLEU 점수를 달성하며, 종종 비슷한 규모의 Europarl 기반의 벤치마크를 능가한다.
약 1.04 주변의 마진 임계치를 사용하면 데이터 크기와 번역 품질 사이의 유리한 균형이 형성되며, 더 낮은 임계치는 데이터 잡음이 증가한다.
Wikipedia를 통한 전 세계적 채굴은 영어 피벗 없이도 먼 언어 쌍의 MT 개선을 가능하게 한다.
이 코퍼스는 다국어 NMT 및 저자원 언어 쌍의 연구를 지원하기 위해 공개적으로 배포된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.