QUICK REVIEW

[논문 리뷰] Improving Sequence Tagging for Vietnamese Text Using Transformer-based Neural Models

Viet Bui The, Oanh Tran Thi|arXiv (Cornell University)|2020. 06. 29.

Natural Language Processing Techniques참고 문헌 21인용 수 25

한 줄 요약

이 논문은 베트남어 시퀀스 태깅을 위한 주의 메커니즘을 갖춘 순환 신경망으로 미세조정된 다국어 BERT 및 ELECTRA 기반 모델인 viBERT와 vELECTRA를 제안한다. 대규모 베트남어 코퍼스를 활용한 향상된 미세조정 및 사전학습을 통해 베트남어 POS 태깅(2010 VLSP)에서 95.40% 정확도, 2013 VLSP에서 96.77%, NER(2016 VLSP)에서 F1 점수 94.07%, 2018 VLSP에서 F1 점수 90.31%의 최신 기술 수준(SOTA) 성능을 달성하였다. 코드와 모델은 오픈소스로 공개되었다.

ABSTRACT

This paper describes our study on using mutilingual BERT embeddings and some new neural models for improving sequence tagging tasks for the Vietnamese language. We propose new model architectures and evaluate them extensively on two named entity recognition datasets of VLSP 2016 and VLSP 2018, and on two part-of-speech tagging datasets of VLSP 2010 and VLSP 2013. Our proposed models outperform existing methods and achieve new state-of-the-art results. In particular, we have pushed the accuracy of part-of-speech tagging to 95.40% on the VLSP 2010 corpus, to 96.77% on the VLSP 2013 corpus; and the F1 score of named entity recognition to 94.07% on the VLSP 2016 corpus, to 90.31% on the VLSP 2018 corpus. Our code and pre-trained models viBERT and vELECTRA are released as open source to facilitate adoption and further research.

연구 동기 및 목표

다국어 BERT 및 ELECTRA 아키텍처를 활용해 베트남어 시퀀스 태깅 성능을 향상시키기 위해 노력한다.
대규모 단일 언어 코퍼스를 기반으로 전용 베트남어 언어 모델(viBERT 및 vELECTRA)을 개발하고 사전학습한다.
선형층 대신 주의 메커니즘을 갖춘 순환 신경망을 도입하여 더 나은 시퀀스 모델링을 위한 미세조정 전략을 향상시킨다.
표준 베트남어 POS 태깅 및 NER 데이터셋에서 최신 기술 수준의 성능을 달성한다.
향후 베트남어 자연어 처리 연구를 지원하기 위해 오픈소스 코드와 사전학습된 모델을 공개한다.

제안 방법

다국어 BERT 및 ELECTRA 아키텍처를 사용해 10GB와 60GB의 압축 해제된 베트남어 텍스트를 기반으로 viBERT와 vELECTRA를 사전학습한다.
BERT 스타일 사전학습에서는 전체 단어 마스킹을, ELECTRA 스타일 사전학습에서는 대체된 토큰 탐지 기반의 목표를 사용해 표현 학습을 향상시킨다.
시퀀스 태깅을 위해 단순 선형층 대신 주의 메커니즘을 갖춘 양방향 LSTM 또는 양방향 GRU를 사용해 사전학습된 모델을 미세조정한다.
최대 256 토큰의 시퀀스 길이까지 학습된 위치 임베딩을 적용하고, ## 서브워드 유닛을 사용한 WordPiece 토크나이저를 사용한다.
Adam 최적화기를 사용하며, β1 = 0.9, β2 = 0.999, ϵ = 1e−6, 가중치 감쇠는 0.01로 설정한다.
정확도 및 F1 점수를 사용해 VLSP 2010, 2013(POS 태깅) 및 VLSP 2016, 2018(NER) 데이터셋에서 평가한다.

실험 결과

연구 질문

RQ1주의 메커니즘을 갖춘 순환 신경망으로 BERT 및 ELECTRA를 미세조정하면 베트남어 시퀀스 태깅 성능이 유의미하게 향상되는가?
RQ2다국어 mBERT와 비교해 대규모 단일 언어 베트남어 코퍼스를 기반으로 사전학습하면, 후속 시퀀스 태깅 작업에 어떤 영향을 미치는가?
RQ3ELECTRA의 대체된 토큰 탐지 목표가 베트남어 자연어 처리 작업에서 BERT의 마스킹된 언어 모델링 목표보다 우수한가?
RQ4사전학습된 모델과 결합했을 때, 다양한 시퀀스 태깅 아키텍처(예: 양방향 LSTM, 양방향 GRU, 주의 메커니즘)의 성능에 어떤 영향을 미치는가?
RQ5제안된 모델이 표준 베트남어 벤치마크 데이터셋에서 POS 태깅 및 NER 작업에서 최신 기술 수준의 성능을 달성할 수 있는가?

주요 결과

제안된 vELECTRA 모델은 VLSP 2010 POS 태깅 데이터셋에서 95.40%의 정확도를 기록하며 이전 최고 성능보다 2个百分点 이상 뛰어나다.
VLSP 2013 POS 태깅 데이터셋에서 모델은 96.77%의 정확도를 달성해 새로운 최고 기록을 수립했다.
VLSP 2016 NER 데이터셋에서 가장 우수한 성능을 보인 모델은 F1 점수 94.07%를 기록했으며, 이는 이전 방법들을 크게 능가한다.
VLSP 2018 NER 데이터셋에서 모델은 F1 점수 90.31%를 기록했으며, mBERT 및 viBERT 대비 약 3% 향상된 성능을 보였다.
VLSP 2018 NER 데이터셋에서는 주의 메커니즘을 갖춘 biGRU 아키텍처가 가장 뛰어난 성능을 보였고, VLSP 2016에서는 biLSTM과 주의 메커니즘이 가장 우수한 성능을 기록했다.
디코딩 시간은 실용적이며, vELECTRA가 가장 빠른 모델이었고, FPT.AI에서 이미 3,000만 명 이상의 사용자를 대상으로 실시간으로 운영 중이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.