[논문 리뷰] Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages
Samanantar는 기존 및 새로 수집된 병렬 데이터를 결합하여 ~49.7M 영어–인도en 간 문장 쌍을 11개 언어에 걸쳐 생성하고, 최첨단 다국어 NMT(IndicTrans) 및 광범위한 교차 언어 평가를 가능하게 한다.
We present Samanantar, the largest publicly available parallel corpora collection for Indic languages. The collection contains a total of 49.7 million sentence pairs between English and 11 Indic languages (from two language families). Specifically, we compile 12.4 million sentence pairs from existing, publicly-available parallel corpora, and additionally mine 37.4 million sentence pairs from the web, resulting in a 4x increase. We mine the parallel sentences from the web by combining many corpora, tools, and methods: (a) web-crawled monolingual corpora, (b) document OCR for extracting sentences from scanned documents, (c) multilingual representation models for aligning sentences, and (d) approximate nearest neighbor search for searching in a large collection of sentences. Human evaluation of samples from the newly mined corpora validate the high quality of the parallel sentences across 11 languages. Further, we extract 83.4 million sentence pairs between all 55 Indic language pairs from the English-centric parallel corpus using English as the pivot language. We trained multilingual NMT models spanning all these languages on Samanantar, which outperform existing models and baselines on publicly available benchmarks, such as FLORES, establishing the utility of Samanantar. Our data and models are available publicly at https://ai4bharat.iitm.ac.in/samanantar and we hope they will help advance research in NMT and multilingual NLP for Indic languages.
연구 동기 및 목표
- 기존 데이터를 모으고 다양한 소스에서 새로운 데이터를 채굴하여 영어–인도 계열 언어를 위한 크고 공개적으로 이용 가능한 병렬 말뭉치를 생성한다.
제안 방법
- 여러 소스(OPUS, JW300, 위키피디아, 자막 등)에서 기존의 영어–인도 간 병렬 데이터를 수집한다.
- LaBSE 기반 문장 정렬과 LAS 임계값 필터링을 사용하여 기계가 읽을 수 있는 소스(뉴스 사이트, 교육 플랫폼)에서 추가 병렬 문장을 발굴한다.
- OCR(Google Vision)을 통해 기계가 읽히지 않는 소스에서 추출하고 영어 대응 문장과 LAS로 정렬한다.
- LaBSE 임베딩의 FAISS 인덱싱을 사용하여 IndicCorp에서 웹 규모의 병렬 데이터를 발굴하고 근접 이웃을 검색한 뒤 LAS로 필터링한다.
- 영어를 매개로 인도어를 연결하여 83.4M En–Indic 및 Indic–Indic 문장 쌍을 생성한다.
- 전이 학습을 위한 Devanagari 스크립트 통일 표현과 함께 데이터 중복 제거를 신중히 수행하고 Samanantar에서 다국어 NMT 모델(IndicTrans)을 학습한다.
실험 결과
연구 질문
- RQ1기존 데이터와 웹 마이닝을 결합할 때 11개 인도어에 대한 공개 병렬 말뭉치의 규모와 품질은 어떤가?
- RQ2Samanantar에서 학습된 다국어 NMT 모델이 인도어 벤치마크에서 기존 베이스라인 및 상업용 시스템을 능가할 수 있는가?
- RQ3영어를 매개로 하는 연결이 큰 다국어 말뭉치에서 고품질의 Inter-Ind 언어 쌍 추출에 어떤 영향을 미치는가?
- RQ4LaBSE 기반 정렬과 LAS 임계값이 발굴된 병렬 데이터의 품질에 미치는 영향은 무엇인가?
- RQ5Samanantar의 인도 NLP 및 기계 번역 활용성을 가장 잘 보여주는 데이터 세트와 평가 프로토콜은 무엇인가?
주요 결과
- Samanantar는 ~49.7M 영어–인도 간 문장 쌍을 포함하고 있으며(12.4M은 기존 소스에서, 37.4M은 신규 마이닝).
- IndicCorp 주도 마이닝은 신규 데이터의 67%를 차지하며, 영어 매개를 통해 83.4 million En–55 language-pair 문장을 발굴했다.
- 9,566 문장 쌍에 대한 인간 주석은 All Accept와 Definite Accept 범주에서 높은 의미적 유사성을 보였다(평균 STS 4.27; Definite Accept 4.63).
- LaBSE 기반 LAS는 인간 STS와 보통 수준으로 상관되며(Spearman 0.37), 고품질 병렬 데이터를 위한 LAS 임계값 필터링을 효과적으로 가능하게 한다.
- Inter-Indic(영어를 통해 피벗) 마이닝은 55개 언어 쌍(11개 중 2개를 조합)에서 83.4M Indic-언어 문장 쌍을 산출한다.
- Samanantar에서 학습된 IndicTrans는 기존 공개 모델을 능가하고, 다수의 벤치마크에서 상용 시스템에도 비견되며 10개 인도어에 걸쳐 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.