QUICK REVIEW

[논문 리뷰] AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages

Anoop Kunchukuttan, Divyanshu Kakwani|arXiv (Cornell University)|2020. 04. 30.

Natural Language Processing Techniques참고 문헌 23인용 수 43

한 줄 요약

이 논문은 IndicNLP 말뭉치를 2.7B 단어에 걸쳐 10개 인도어에서 제공하고, 사전 학습된 FastText 임베딩과 벤치마크(뉴스 분류, 단어 유사도/유추, 양방향 어휘 추출)에서 공개 벤치마크 대비 향상을 보인다.

ABSTRACT

We present the IndicNLP corpus, a large-scale, general-domain corpus containing 2.7 billion words for 10 Indian languages from two language families. We share pre-trained word embeddings trained on these corpora. We create news article category classification datasets for 9 languages to evaluate the embeddings. We show that the IndicNLP embeddings significantly outperform publicly available pre-trained embedding on multiple evaluation tasks. We hope that the availability of the corpus will accelerate Indic NLP research. The resources are available at https://github.com/ai4bharat-indicnlp/indicnlp_corpus.

연구 동기 및 목표

10개 Indic 언어의 현대적 사용을 반영한 대규모 단일언어 말뭉치 생성.
IndicNLP 말뭉치에서 학습된 사전 훈련 단어 임베딩 제공.
다운스트림 평가 데이터셋(뉴스 카테고리 분류) 및 비지도 형태소 분석기 개발.
IndicNLP 임베딩이 다양한 NLP 작업에서 공개적으로 이용 가능한 임베딩보다 우수하다는 점 시연.

제안 방법

뉴스 소스와 위키피디아에서 일반 도메인 단일 언어 데이터 수집 및 전처리.
Indic 텍스트를 표준화하고, 문장 분리 및 Indic NLP Library를 이용한 토큰화 수행.
각 언어에서 서브워드 정보를 포함한 300차원 FastText 스킵그램 임베딩(10 에포크, window=5, min count=5, 10 음의 샘플) 학습.
임베딩을 단어 유사도, 단어 유추, 감정/텍스트 분류, 그리고 이중언어 어휘 추정(BLI)에서 평가.
9개 언어에 대한 IndicNLP 뉴스 카테고리 데이터셋 구성 및 평균 단어 임베딩으로 k-NN(k=4) 분류 사용.
불지도 Morpheme 분석기(Morfessor 2.0)를 학습시키고 IndicNLP 간의 SMT에서 형태소 관련 향상 평가.

실험 결과

연구 질문

RQ1IndicNLP 임베딩이 Intrinsic 및 Extrinsic 작업에서 공개적으로 이용 가능한 임베딩(FT-W, FT-WC) 보다 우수한가?
RQ2단일언어 IndicNLP 말뭉치가 단어 유사도, 유추, 감정, 텍스트 분류, 그리고 이중언어 어휘 추정 성능에 어떤 영향을 미치는가?
RQ3IndicNLP 자원이 비지도 형태소 분석과 다국어 간 SMT 개선에 기여할 수 있는가?
RQ4말뭉치의 다국어 표현 및 다운스트림 NLP 벤치마크 구축에 대한 유용성은 무엇인가?

주요 결과

Lang	FT-W	FT-WC	INLP
pa	94.23	94.87	96.79
bn	97.00	97.07	97.86
or	94.00	95.93	98.07
gu	97.05	97.54	99.02
mr	96.44	97.07	99.37
kn	96.13	96.50	97.20
te	98.46	98.17	98.79
ml	90.00	89.33	92.50
ta	95.98	95.81	97.01
Average	95.47	95.81	97.40

IndicNLP 임베딩이 여러 작업에서 두 공개 벤치마크를 능가; 언어별 평균 단어 유사도(Pearson)은 INLP 0.519, FT-W 0.507, FT-WC 0.497로 상승.
단어 유추(Hindi 하위집합)에서 IndicNLP가 33.48% 정확도 달성, FT-W 19.76%, FT-WC 32.93% 대비 향상.
다양한 공개 데이터셋의 텍스트 분류에서 IndicNLP 임베딩은 평균 정확도 74.73%로 FT-W(69.25%), FT-WC(68.32%)보다 높음.
IndicNLP 뉴스 카테고리 데이터셋의 결과는 INLP 임베딩으로 언어 간 더 높은 정확도(예: pa: 96.79, bn: 97.86, or: 98.07, gu: 99.02, mr: 99.37, te: 98.79, ta: 97.01 등, 평균 97.40)를 보임.
GeoMM를 이용한 Bilingual Lexicon Induction(BLI)에서 INLP의 평균 정확도가 더 높음: en→Indic 36.55 및 Indic→en 44.94(FT-W 25.98/33.20, FT-WC 32.88/44.94 대비).
IndicNLP에서 학습된 비지도 형태소 분석기가 단어 수준 베이스라인보다 SMT BLEU 점수를 개선하고, 이전 형태소 분석기(K&B, 2016) 대비 경쟁력 있는 결과를 보임(평균 BLEU: 단어 22.84, 형태소 24.21, 형태소(K&B, 2016) 24.57).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.