QUICK REVIEW

[논문 리뷰] MoNoise: Modeling Noise Using a Modular Normalization System

Rob van der Goot, Gertjan van Noord|arXiv (Cornell University)|2017. 10. 10.

Natural Language Processing Techniques참고 문헌 22인용 수 24

한 줄 요약

MoNoise는 표준어로의 비표준 소셜미디어 텍스트 변환에서 일반화 능력과 효율성을 향상시키는 모듈식 정규화 시스템을 제안한다. 표준어 교정, 단어 임베딩, 훈련 데이터에서 유도된 정적 검색 목록을 활용한 후보 생성과 N-gram 특징을 사용한 랜덤 포레스트 분류기를 통한 순위 매기기 방식을 결합함으로써, LexNorm1.2, LexNorm2015, GhentNorm를 포함한 여러 데이터셋에서 기존 방법을 능가하는 최신 기술 수준의 성능을 달성한다. 영어 및 네덜란드어 벤치마크에서 모두 최고 성능을 기록한다.

ABSTRACT

We propose MoNoise: a normalization model focused on generalizability and efficiency, it aims at being easily reusable and adaptable. Normalization is the task of translating texts from a non- canonical domain to a more canonical domain, in our case: from social media data to standard language. Our proposed model is based on a modular candidate generation in which each module is responsible for a different type of normalization action. The most important generation modules are a spelling correction system and a word embeddings module. Depending on the definition of the normalization task, a static lookup list can be crucial for performance. We train a random forest classifier to rank the candidates, which generalizes well to all different types of normaliza- tion actions. Most features for the ranking originate from the generation modules; besides these features, N-gram features prove to be an important source of information. We show that MoNoise beats the state-of-the-art on different normalization benchmarks for English and Dutch, which all define the task of normalization slightly different.

연구 동기 및 목표

비표준 소셜미디어 텍스트를 표준어로 변환하기 위한 일반화 가능하고 효율적인 정규화 모델을 개발하기 위해.
모델 재학습 없이 노이즈가 많은 사용자 생성 텍스트를 사전 처리하는 방식으로 도메인 적응 문제를 해결하기 위해.
철자 교정, 약어 전개, 형태적 변형과 같은 다양한 정규화 작업에서의 성능 향상을 위해.
모듈식 구성 요소를 통해 여러 정규화 동작을 지원하는 재사용 가능하고 유연한 시스템을 설계하기 위해.
모델의 효과성을 파arsing 및 POS 태깅과 같은 후속 자연어 처리 작업의 전처리 단계로 평가하기 위해.

제안 방법

각 모듈이 특정 정규화 동작(예: 철자 교정 또는 단어 임베딩 기반 후보 생성)을 담당하는 모듈식 아키텍처를 사용한다.
후보 생성은 세 가지 핵심 모듈에 의해 주도된다: 철자 교정 시스템, 단어 임베딩 모듈, 훈련 데이터에서 유도된 정적 검색 목록.
랜덤 포레스트 분류기가 후보를 순위 매기며, 단어 유사도 및 에디트 거리와 같은 생성 모듈의 특징과 N-gram 특징을 핵심 예측 변수로 사용한다.
1:1 및 1:N 정규화 동작을 모두 지원하며, 예를 들어 'tmr'을 'tomorrow'로 전개하거나 'Ima'를 'I’m going to'으로 전개한다.
다양한 벤치마크에서 엔드 투 엔드로 훈련되며, 정규화의 공격성 정도를 제어하기 위한 가중치 파rameter를 통해 튜닝이 가능하다.
외부 평가에서는 베이럴리지 파서와 양방향 LSTM POS 태거인 Bilty에 MoNoise를 전처리 단계로 적용하여 평가한다.

실험 결과

연구 질문

RQ1모듈식 정규화 시스템은 다양한 소셜미디어 정규화 작업과 벤치마크에 일반화될 수 있는가?
RQ2다양한 생성 모듈의 특징과 결합된 랜덤 포레스트 분류기가 다양한 정규화 후보를 순위 매길 때 얼마나 효과적인가?
RQ3임베딩 및 에디트 거리 특징에 비해 N-gram 특징이 순위 매기기 성능 향상에 얼마나 기여하는가?
RQ4MoNoise는 영어 및 네덜란드어 정규화 벤치마크에서 기존 최고 성능 모델을 능가하는가?
RQ5MoNoise는 파싱 및 POS 태깅과 같은 후속 자연어 처리 작업의 효과적인 전처리 단계로 기능할 수 있는가?

주요 결과

LexNorm2015 벤치마크에서 MoNoise는 기존 방법을 크게 능가하는 새로운 최고 성능 기록인 F1 스코어 86.39를 달성한다.
LexNorm1.2 데이터셋에서는 F1 스코어 75.97을 기록하여 다양한 표기 기준에 대한 강력한 일반화 능력을 입증한다.
GhentNorm 데이터셋에서는 정밀도 80.95와 재현율 28.81을 기록했으며, 성능은 훈련 데이터의 크기 부족과 표기 방식의 차이로 인해 일부 제한을 받는다.
외부 평가 결과, MoNoise의 최적 정규화 시퀀스를 사용할 경우 베이럴리지 파서의 F1 스코어가 0.68% 향상되었고, 상위 n개 후보를 사용할 경우 1.26% 향상되었다.
양방향 LSTM POS 태거 Bilty는 MoNoise의 단어 임베딩을 초기화할 경우 두 테스트 세트에서 각각 1.10점과 0.39점의 정확도 향상을 기록했다.
N-gram 특징은 순위 매기기 분류기에서 가장 중요한 예측 변수로 규명되었으며, 임베딩 또는 에디트 거리 특징만을 사용하는 것보다 성능이 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.