Skip to main content
QUICK REVIEW

[논문 리뷰] AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages

Anoop Kunchukuttan, Divyanshu Kakwani|arXiv (Cornell University)|2020. 04. 30.
Natural Language Processing Techniques참고 문헌 23인용 수 43
한 줄 요약

이 논문은 IndicNLP 말뭉치를 2.7B 단어에 걸쳐 10개 인도어에서 제공하고, 사전 학습된 FastText 임베딩과 벤치마크(뉴스 분류, 단어 유사도/유추, 양방향 어휘 추출)에서 공개 벤치마크 대비 향상을 보인다.

ABSTRACT

We present the IndicNLP corpus, a large-scale, general-domain corpus containing 2.7 billion words for 10 Indian languages from two language families. We share pre-trained word embeddings trained on these corpora. We create news article category classification datasets for 9 languages to evaluate the embeddings. We show that the IndicNLP embeddings significantly outperform publicly available pre-trained embedding on multiple evaluation tasks. We hope that the availability of the corpus will accelerate Indic NLP research. The resources are available at https://github.com/ai4bharat-indicnlp/indicnlp_corpus.

연구 동기 및 목표

  • 10개 Indic 언어의 현대적 사용을 반영한 대규모 단일언어 말뭉치 생성.
  • IndicNLP 말뭉치에서 학습된 사전 훈련 단어 임베딩 제공.
  • 다운스트림 평가 데이터셋(뉴스 카테고리 분류) 및 비지도 형태소 분석기 개발.
  • IndicNLP 임베딩이 다양한 NLP 작업에서 공개적으로 이용 가능한 임베딩보다 우수하다는 점 시연.

제안 방법

  • 뉴스 소스와 위키피디아에서 일반 도메인 단일 언어 데이터 수집 및 전처리.
  • Indic 텍스트를 표준화하고, 문장 분리 및 Indic NLP Library를 이용한 토큰화 수행.
  • 각 언어에서 서브워드 정보를 포함한 300차원 FastText 스킵그램 임베딩(10 에포크, window=5, min count=5, 10 음의 샘플) 학습.
  • 임베딩을 단어 유사도, 단어 유추, 감정/텍스트 분류, 그리고 이중언어 어휘 추정(BLI)에서 평가.
  • 9개 언어에 대한 IndicNLP 뉴스 카테고리 데이터셋 구성 및 평균 단어 임베딩으로 k-NN(k=4) 분류 사용.
  • 불지도 Morpheme 분석기(Morfessor 2.0)를 학습시키고 IndicNLP 간의 SMT에서 형태소 관련 향상 평가.

실험 결과

연구 질문

  • RQ1IndicNLP 임베딩이 Intrinsic 및 Extrinsic 작업에서 공개적으로 이용 가능한 임베딩(FT-W, FT-WC) 보다 우수한가?
  • RQ2단일언어 IndicNLP 말뭉치가 단어 유사도, 유추, 감정, 텍스트 분류, 그리고 이중언어 어휘 추정 성능에 어떤 영향을 미치는가?
  • RQ3IndicNLP 자원이 비지도 형태소 분석과 다국어 간 SMT 개선에 기여할 수 있는가?
  • RQ4말뭉치의 다국어 표현 및 다운스트림 NLP 벤치마크 구축에 대한 유용성은 무엇인가?

주요 결과

LangFT-WFT-WCINLP
pa94.2394.8796.79
bn97.0097.0797.86
or94.0095.9398.07
gu97.0597.5499.02
mr96.4497.0799.37
kn96.1396.5097.20
te98.4698.1798.79
ml90.0089.3392.50
ta95.9895.8197.01
Average95.4795.8197.40
  • IndicNLP 임베딩이 여러 작업에서 두 공개 벤치마크를 능가; 언어별 평균 단어 유사도(Pearson)은 INLP 0.519, FT-W 0.507, FT-WC 0.497로 상승.
  • 단어 유추(Hindi 하위집합)에서 IndicNLP가 33.48% 정확도 달성, FT-W 19.76%, FT-WC 32.93% 대비 향상.
  • 다양한 공개 데이터셋의 텍스트 분류에서 IndicNLP 임베딩은 평균 정확도 74.73%로 FT-W(69.25%), FT-WC(68.32%)보다 높음.
  • IndicNLP 뉴스 카테고리 데이터셋의 결과는 INLP 임베딩으로 언어 간 더 높은 정확도(예: pa: 96.79, bn: 97.86, or: 98.07, gu: 99.02, mr: 99.37, te: 98.79, ta: 97.01 등, 평균 97.40)를 보임.
  • GeoMM를 이용한 Bilingual Lexicon Induction(BLI)에서 INLP의 평균 정확도가 더 높음: en→Indic 36.55 및 Indic→en 44.94(FT-W 25.98/33.20, FT-WC 32.88/44.94 대비).
  • IndicNLP에서 학습된 비지도 형태소 분석기가 단어 수준 베이스라인보다 SMT BLEU 점수를 개선하고, 이전 형태소 분석기(K&B, 2016) 대비 경쟁력 있는 결과를 보임(평균 BLEU: 단어 22.84, 형태소 24.21, 형태소(K&B, 2016) 24.57).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.