QUICK REVIEW

[논문 리뷰] Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation

Chunqi Wang, Bo Xu|arXiv (Cornell University)|2017. 11. 12.

Natural Language Processing Techniques참고 문헌 45인용 수 43

한 줄 요약

이 논문은 수동적 특징 공학 없이 rich n-gram 특징을 자동으로 캡처할 수 있도록 스택된 컨volutional 레이어를 활용하는 문자 기반 컨volutional 신경망(CNN)과 단어 임베딩을 제안한다. 대규모 자동 분할 코퍼스에서 사전 훈련된 단어 임베딩을 통합함으로써, 외부 레이블 데이터를 사용하지 않고도 PKU에서 96.5%의 F1 점수와 MSR에서 98.0%의 F1 점수를 달성한다.

ABSTRACT

Character-based sequence labeling framework is flexible and efficient for Chinese word segmentation (CWS). Recently, many character-based neural models have been applied to CWS. While they obtain good performance, they have two obvious weaknesses. The first is that they heavily rely on manually designed bigram feature, i.e. they are not good at capturing n-gram features automatically. The second is that they make no use of full word information. For the first weakness, we propose a convolutional neural model, which is able to capture rich n-gram features without any feature engineering. For the second one, we propose an effective approach to integrate the proposed model with word embeddings. We evaluate the model on two benchmark datasets: PKU and MSR. Without any feature engineering, the model obtains competitive performance -- 95.7% on PKU and 97.3% on MSR. Armed with word embeddings, the model achieves state-of-the-art performance on both datasets -- 96.5% on PKU and 98.0% on MSR, without using any external labeled resource.

연구 동기 및 목표

수동적 바이그램 특징 공학 없이도 문자 기반 신경망 모델이 n-gram 특징을 자동으로 캡처하는 데서 비롯하는 한계를 해결하기 위해.
기존에 단어 수준의 의미를 忽略하는 문자 기반 모델에 전체 단어 정보를 통합하기 위해.
대규모 자동 분할 텍스트에서 유도된 준지도 학습 단어 임베딩을 사용하여 분할 성능을 향상시키기 위해.
외부 레이블 자원에 의존하지 않고도 벤치마크 데이터셋에서 최고 성능을 달성하기 위해.

제안 방법

입력 문자를 조밀 벡터로 매핑하기 위해 문자 수준의 룩업 테이블을 사용한다.
문자 시퀀스에서 문맥적 표현을 학습하기 위해 게이팅된 선형 단위(GLU)를 갖춘 스택된 1차원 컨볼루션 레이어를 활용한다.
문자 간 일致된 태깅을 보장하기 위해 CNN 출력 위에 CRF 레이어를 적용한다.
단어를 추가 입력 특징으로 간주함으로써, 문자 기반 모델에 사전 훈련된 단어 임베딩을 통합하는 새로운 방법을 제안한다.
대규모 자동 분할 텍스트에서 단어 임베딩을 학습함으로써, 외부 레이블 데이터 없이 준지도 학습을 가능하게 한다.
단어 임베딩을 종합적으로 훈련하는 전략을 사용하여, 분할 모델의 엔드 투 엔드 훈련 중에 미세 조정한다.

실험 결과

연구 질문

RQ1문자 기반 CNN 기반 모델이 중국어 단어 분할에서 명시적 바이그램 특징 공학 없이 rich n-gram 특징을 자동으로 학습할 수 있는가?
RQ2자동 분할된 데이터에서 유도된 단어 임베딩이 문자 기반 CWS 시스템의 성능 향상에 얼마나 효과적으로 기여하는가?
RQ3문자 수준 모델에 단어 수준 정보를 통합하면 성능 향상이 뚜렷하게 이루어지는가?
RQ4제안된 모델이 외부 레이블 훈련 데이터를 전혀 사용하지 않고도 최고 성능을 달성할 수 있는가?

주요 결과

특징 공학 없이도 제안된 CNN 모델은 PKU에서 95.7% F1, MSR에서 97.3% F1을 달성하여, 바이그램 특징이 없는 이전의 문자 기반 모델보다 우수한 성능을 보였다.
사전 훈련된 단어 임베딩을 통합함으로써, 모델은 PKU에서 96.5% F1, MSR에서 98.0% F1을 달성하여 새로운 최고 성능을 수립했다.
제거 분석 결과, 단어 임베딩과 어휘 모두 성능 향상에 거의 동일한 기여를 하며, PKU에서 기본 모델 대비 단어 임베딩이 0.4% 향상시켰다.
모델는 CNN이 자동으로 n-gram 특징을 효과적으로 학습할 수 있음을 입증하여 수동으로 제작된 특징에 대한 의존도를 감소시켰다.
외부 레이블 데이터 없이도 단어 임베딩의 성능 향상은 뚜렷했으며, 준지도 사전 훈련의 효과성을 확인했다.
기존의 문자 기반 모델을 초월하며, 정확도 면에서 단어 기반 모델과도 맞먹거나 능가했으며, 동시에 문자 수준 모델링의 유연성을 유지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.