Skip to main content
QUICK REVIEW

[논문 리뷰] Advances in Pre-Training Distributed Word Representations

Tomáš Mikolov, Édouard Grave|arXiv (Cornell University)|2017. 12. 26.
Topic Modeling참고 문헌 17인용 수 327
한 줄 요약

본 논문은 여러 가지 잘 알려진 기법들(중복 제거, 구(phrase), 위치 의존 가중치, 부분어 정보)을 결합하여 고품질 단어 벡터를 학습하고, 이전 최첨단을 여러 벤치마크 및 QA 작업에서 능가하는 fastText 모델을 공개한다.

ABSTRACT

Many Natural Language Processing applications nowadays rely on pre-trained word representations estimated from large text corpora such as news collections, Wikipedia and Web Crawl. In this paper, we show how to train high-quality word vector representations by using a combination of known tricks that are however rarely used together. The main result of our work is the new set of publicly available pre-trained models that outperform the current state of the art by a large margin on a number of tasks.

연구 동기 및 목표

  • 대규모 비라벨링 코퍼스를 사용할 필요성을 제시하여 NLP 작업에 robust한 단어 표현을 학습한다.
  • 단어2vec/fastText 학습의 알려진 개선점들을 결합하는 것이 벡터 품질에 어떤 영향을 미치는지 탐구한다.
  • 중복 제거, 구 표현, 위치 인지 가중치, 부분어 정보가 우수한 벡터를 생성한다는 것을 Demonstrate한다.
  • 연구원과 엔지니어가 폭넓게 사용할 수 있도록 공개적으로 이용 가능한 사전 학습 모델을 제공한다.

제안 방법

  • word2vec의 CBOW 프레임워크와 negative sampling을 포함한 skip-gram/CBOW 학습을 기술한다.
  • 자주 등장하는 단어에 대한 과적합을 줄이기 위해 단어 빈도 하위 샘플링을 적용한다.
  • 상대적 맥락 위치마다 벡터를 부여하여 맥락 단어에 재가중치를 주는 위치 의존 가중화를 도입한다.
  • 사전 처리 단계로 높은 상호 정보량 n-그램을 단일 토큰으로 합쳐 구(예: New_York) 표현을 포함하는 구 표현을 도입한다.
  • 단어 벡터에 3- to 6-그램의 문자 부분어 벡터를 합산하고 해싱을 사용해 메모리를 관리하며 부분어 정보를 강화한다.
  • 대규모 공개 코퍼스(Wikipedia, news, Gigaword, Common Crawl)에서 학습하고 이를 GloVe 기반 벤치마크와 비교한다.

실험 결과

연구 질문

  • RQ1중복 제거, 구, 위치 의존 가중치, 부분어 특징의 알려진 개선점들을 조합하면 더 높은 품질의 단어 벡터를 얻을 수 있는가?
  • RQ2제안된 fastText 기반 벡터는 표준 어휘 analogue, Rare Words, QA 벤치마크에서 GloVe 및 기존 벡터와 비교해 어떤 성능을 보이는가?
  • RQ3학습 데이터 규모와 전처리(예: 문장 중복 제거)가 벡터 품질에 어떤 영향을 미치는가?
  • RQ4부분어 정보가 형태소적으로 풍부한 언어 및 철자가 잘못된 단어 표현에서 성능을 개선하는가?

주요 결과

  • Common Crawl과 같은 대규모 코퍼스의 중복 제거가 벡터 품질을 크게 향상시킨다.
  • 구 표현과 위치 의존 가중화를 추가하면 어휘 비유 과제에서 상당한 이득을 얻는다.
  • 부분어 정보를 도입하면 표준 벤치마크에서 어휘 비유 정확도가 88.5%로 증가하여 GloVe 및 기본 fastText를 능가한다.
  • Wikipedia+news 및 Crawl에서 학습된 fastText 벡터는 Rare Words 및 Squad 기반 QA 작업을 포함한 여러 벤치마크에서 GloVe에 비해 더 우수한 성능을 보인다.
  • 감독된 텍스트 분류 작업에서 fastText 벡터는 비교 가능한 코퍼스에서 GloVe 벡터에 비해 분류기 초기화에 우수한 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.