QUICK REVIEW

[논문 리뷰] Character-Word LSTM Language Models

Lyan Verwimp, Joris Pelemans|arXiv (Cornell University)|2017. 04. 10.

Natural Language Processing Techniques참고 문헌 21인용 수 18

한 줄 요약

이 논문은 어휘 수준과 문자 수준 임베딩을 결합하여 언어 모델 성능을 향상시키는 문자-어휘 순환 신경망(Long Short-Term Memory, CW-LSTM) 언어 모델을 제안한다. 서브워드 정보를 통합함으로써, 기준 어휘 수준 언어 모델 대비 네덜란드어에서 최대 4.57%, 영어에서 최대 2.77%의 퍼플렉서티 감소를 이룬다. 또한 희귀어 및 OOV(사전에 없는 단어) 단어에 대해 모델 파rameter 수를 줄였다.

ABSTRACT

We present a Character-Word Long Short-Term Memory Language Model which both reduces the perplexity with respect to a baseline word-level language model and reduces the number of parameters of the model. Character information can reveal structural (dis)similarities between words and can even be used when a word is out-of-vocabulary, thus improving the modeling of infrequent and unknown words. By concatenating word and character embeddings, we achieve up to 2.77% relative improvement on English compared to a baseline model with a similar amount of parameters and 4.57% on Dutch. Moreover, we also outperform baseline word-level models with a larger number of parameters.

연구 동기 및 목표

부족한 훈련 데이터와 형태소 구조의 부재로 인해 희귀어 및 OOV(사전에 없는 단어)를 다루는 데 어려움을 겪는 어휘 수준 언어 모델의 한계를 해결한다.
서브워드(문자 수준) 정보를 활용하여 구조적 유사성을 파악함으로써 희귀어 및 알 수 없는 단어의 모델링을 향상시킨다.
어휘 임베딩 크기를 줄임으로써 모델 파arameter 수를 감소시키되, 성능을 유지한다.
문자 임베딩 크기, 순서(정방향, 역방향, 양방향), 가중치 공유 및 모델 아키텍처가 언어 모델링 성능에 미치는 영향을 조사한다.
문자 수준 정보가 OOV 단어의 확률 추정을 향상시켜 자원이 제한된 상황에서의 일반화 능력을 향상시킨다.

제안 방법

사전에 학습된 어휘 임베딩과 문자 임베딩을 결합하여 LSTMs에 입력하는 통합 문자-어휘 표현을 생성한다.
문자를 정방향 및/또는 역방향 순서로 처리하여 이중 방향 문자 표현을 얻어 형태소 패턴을 포착한다.
문자 간에 가중치 공유를 적용하여 문자 임베딩 행렬 크기를 줄이고 모델 복잡도를 낮춘다.
어휘 임베딩 크기를 비례적으로 줄임으로써 총 임베딩 차원을 일정하게 유지한다.
표준 언어 모델링 목표를 사용하여 영어(PTB) 및 네덜란드어(CGN) 데이터셋에서 LSTM을 훈련시킨다.
문자 임베딩 레이어의 입력으로 문자 수준의 one-hot 벡터를 사용하여 순서를 유지하고 서브워드 패턴 학습을 가능하게 한다.

실험 결과

연구 질문

RQ1같은 수의 파arameter를 가진 어휘 수준 언어 모델 대비 어휘와 문자 임베딩을 결합함으로써 언어 모델링의 퍼플렉서티 향상이 가능한가?
RQ2문자 수준 정보를 통합함으로써 성능을 유지하거나 향상시키면서 파arameter 수를 줄일 수 있는가?
RQ3문자 처리 순서(정방향, 역방향, 또는 양방향)가 모델 성능과 퍼플렉서티에 어떤 영향을 미치는가?
RQ4기본 어휘 수준 언어 모델 대비 OOV 단어의 확률 추정이 얼마나 향상되는가?
RQ5문자 간에 가중치 공유를 적용함으로써 성능에 크게 영향을 주지 않고 모델 크기를 줄일 수 있는가?

주요 결과

CW-LSTM 모델은 동일한 수의 파arameter를 가진 기준 어휘 수준 언어 모델 대비 영어에서 2.77%의 상대적 퍼플렉서티 감소, 네덜란드어에서 4.57%의 상대적 퍼플렉서티 감소를 달성한다.
더 많은 파arameter를 가진 어휘 수준 언어 모델보다도 성능이 뛰어나, 문자 정보가 표현 효율성을 향상시킨다는 것을 입증한다.
문자를 역방향 순서로 처리할 경우 정방향 순서보다 더 낮은 퍼플렉서티를 기록하며, 정방향 및 역방향 문자 시퀀스를 모두 사용할 때 가장 우수한 성능을 기록한다.
어휘 임베딩 크기를 줄임으로써 성능을 유지하면서 파arameter 수를 감소시키며, 문자 임베딩의 어휘가 작기 때문에 가능하다.
OOV 단어 뒤에 타겟 단어의 확률을 더 높게 평가하는 경우, 어휘 수준 모델 대비 17,483건에서 CW-LSTM 모델이 10,724건보다 더 높은 확률을 부여함으로써 OOV 처리 능력 향상을 확인한다.
문자 간에 가중치 공유를 적용함으로써 모델 크기를 줄였지만, 퍼플렉서티는 약간 증가시켜 효율성과 성능 사이의 상충 관계를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.