QUICK REVIEW

[논문 리뷰] Empower Sequence Labeling with Task-Aware Neural Language Model

Liyuan Liu, Jingbo Shang|arXiv (Cornell University)|2017. 09. 13.

Natural Language Processing Techniques인용 수 151

한 줄 요약

LM-LSTM-CRF는 문자 수준의 신경 언어 모델과 단어 수준 BiLSTM-CRF를 통합하고, highway 계층으로 작업별 지식을 매개하여, 추가 주석 없이 NER, POS, 그리고 chunking에서 최첨단 성과를 달성한다.

ABSTRACT

Linguistic sequence labeling is a general modeling approach that encompasses a variety of problems, such as part-of-speech tagging and named entity recognition. Recent advances in neural networks (NNs) make it possible to build reliable models without handcrafted features. However, in many cases, it is hard to obtain sufficient annotations to train these models. In this study, we develop a novel neural framework to extract abundant knowledge hidden in raw texts to empower the sequence labeling task. Besides word-level knowledge contained in pre-trained word embeddings, character-aware neural language models are incorporated to extract character-level knowledge. Transfer learning techniques are further adopted to mediate different components and guide the language model towards the key knowledge. Comparing to previous methods, these task-specific knowledge allows us to adopt a more concise model and conduct more efficient training. Different from most transfer learning methods, the proposed framework does not rely on any additional supervision. It extracts knowledge from self-contained order information of training sequences. Extensive experiments on benchmark datasets demonstrate the effectiveness of leveraging character-level knowledge and the efficiency of co-training. For example, on the CoNLL03 NER task, model training completes in about 6 hours on a single GPU, reaching F1 score of 91.71$\pm$0.10 without using any extra annotation.

연구 동기 및 목표

원시 텍스트에서 추가 주석 없이 추출된 지식을 활용하여 시퀀스 표기 개선에 동기를 부여한다.
단어 수준 지식과 문자 수준 지식을 통합하는 간결한 신경망 프레임워크를 제안한다.
highway 계층과 타깃 피처 변환을 통해 언어 모델링과 시퀀스 표기 간의 작업 간 불일치를 완화한다.
기존의 최첨단 방법과 비교하여 표준 벤치마드에서의 효율성과 효과를 입증한다.

제안 방법

문자 수준의 LSTM 언어 모델을 사용하여 주석이 없는 텍스트에서 문자 수준의 지식을 포착한다.
문자 수준의 출력을 두 개의 작업별 공간으로 변환하기 위해 highway 계층을 도입한다: 하나는 언어 모델용, 하나는 시퀀스 표기용.
시퀀스 표기를 위해 단어 수준 BiLSTM과 CRF 계층을 사용하고, 단어 수준 지식을 위해 사전 학습된 단어 임베딩을 미세 조정한다.
CRF 가능도와 순방향/역방향 언어 모델 가능도의 결합 objective를 통해 작업 간 불일치를 처리하는 매개 전략을 사용한다.
GPU에서의 확률적 최적화, 드롭아웃, 그래디언트 클리핑으로 엔드투엔드 학습의 효율성을 달성한다.

실험 결과

연구 질문

RQ1문자 수준 언어 모델에서 얻은 작업별 지식이 추가 감독 없이도 시퀀스 표기에 도움이 될 수 있는가?
RQ2 highway를 기반으로 한 매개가 문자 수준 표현을 언어 모델링과 시퀀스 표기의 요구에 효과적으로 맞춰 주는가?
RQ3제안된 LM-LSTM-CRF가 표준 벤치마크에서 정확도/F1 및 학습 효율성 측면에서 최첨단 방법과 비교하여 어떤 성능을 보이는가?
RQ4단어 임베딩의 미세 조정만으로도 무거운 공동 학습 없이 단어 수준 지식을 활용하는 것이 충분한가?

주요 결과

LM-LSTM-CRF는 CoNLL03 NER에서 외부 자원 비기반 대조군 대비 최첨단 F1을 달성(일부는 추가 자원과 경쟁).
모델은 WSJ POS 태깅과 CoNLL00 청크에서도 강력한 결과를 내며, 대조군과 비교하여 경쟁력 있거나 우수한 성능을 보인다.
매개 없이 시퀀스 표기와 언어 모델링을 함께 학습하는 공동 학습은 성능 저하를 초래할 수 있으며, 문자 수준 특징을 변환하는 highway 계층을 사용하면 이 문제를 완화한다.
단어 수준 구성요소를 위해 사전 학습된 단어 임베딩을 미세 조정하면 대규모 공동 학습 없이도 단어 수준 지식을 효율적으로 활용할 수 있다.
접근 방식은 단일 GPU에서 경쟁적인 시간과 간결한 모델로 대규모 외부 자원 기반 언어 모델에 비해 강한 효율성을 보여준다.
실증 분석은 LM-LSTM-CRF의 더 큰 은닉 상태 크기가 성능을 지속적으로 향상시키는 반면, 다른 기반 모델은 더 일찍 정점에 도달할 수 있어 작업별 지식 추출의 이점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.