QUICK REVIEW

[논문 리뷰] TweetBERT: A Pretrained Language Representation Model for Twitter Text Analysis

Mohiuddin Md Abdul Qudar, Vijay Mago|arXiv (Cornell University)|2020. 10. 17.

Topic Modeling참고 문헌 46인용 수 29

한 줄 요약

이 논문은 수백만 개의 트윗을 기반으로 사전 훈련한 도메인 특화 언어 표현 모델인 TweetBERT를 소개한다. 감성 분석 및 분류 작업에 대해 피지컬 테이닝을 통해 TweetBERTv1과 TweetBERTv2는 일반 BERT 모델보다 평균적으로 7퍼센트 이상 높은 성능을 보이며, 비공식적이고 구어체인 소셜미디어 언어를 다루는 데서 뚜렷한 성과를 보여준다.

ABSTRACT

Twitter is a well-known microblogging social site where users express their views and opinions in real-time. As a result, tweets tend to contain valuable information. With the advancements of deep learning in the domain of natural language processing, extracting meaningful information from tweets has become a growing interest among natural language researchers. Applying existing language representation models to extract information from Twitter does not often produce good results. Moreover, there is no existing language representation models for text analysis specific to the social media domain. Hence, in this article, we introduce two TweetBERT models, which are domain specific language presentation models, pre-trained on millions of tweets. We show that the TweetBERT models significantly outperform the traditional BERT models in Twitter text mining tasks by more than 7% on each Twitter dataset. We also provide an extensive analysis by evaluating seven BERT models on 31 different datasets. Our results validate our hypothesis that continuously training language models on twitter corpus help performance with Twitter.

연구 동기 및 목표

일반 도메인 언어 모델인 BERT와 같은 모델을 비공식적이고 구어체인 트위터 텍스트에 적용할 때 발생하는 성능 저하 문제를 해결한다.
특정 소셜미디어, 특히 트위터의 고유한 언어 패턴에 맞춰 설계된 도메인 특화 언어 표현 모델을 개발한다.
트윗 코퍼스에 대한 타겟팅된 사전 훈련을 통해 트위터 전용 NLP 작업, 예를 들어 감성 분석 및 텍스트 분류의 성능을 향상시킨다.
일반, 생물의학, 과학, 트위터 도메인을 포함한 31개의 다양한 데이터셋에서 TweetBERT를 BERT의 7가지 변종과 비교하여 종합적인 평가를 수행한다.
재현 가능성과 소셜미디어 NLP 연구 분야의 광범위한 활용을 지원하기 위해 사전 훈련된 가중치와 소스 코드를 공개한다.

제안 방법

빅데이터 분석 플랫폼를 통해 수집한 정제되고 익명화된 트윗 코퍼스를 대규모로 활용해 TweetBERT의 두 변종인 TweetBERTv1(기본 BERT에서 초기화)과 TweetBERTv2(기본 ALBERT에서 초기화)를 사전 훈련한다.
BERT와 동일한 사전 훈련 목표를 사용한다: 마스크된 언어 모델링과 다음 문장 예측을 트윗의 언어 스타일에 맞게 조정한다.
TweetBERTv2의 경우, 과학적 및 기술적 트윗 분석 성능 향상을 위해 BERT와 SciBERT(SciVocab)의 어휘를 통합한다.
감성 분석(예: Twitter Sarcasm, Sentiment140), 성별 분류, 정치적 트윗 분류 등 트위터 기반의 하류 작업에 모델을 피지컬 테이닝한다.
표준 피지컬 테이닝 절차를 활용해 전이 학습을 통해 사전 훈련된 모델을 특정 분류 작업에 적응시킨다.
정확도 및 마진 성능 향상 비율 지표를 사용해 31개의 데이터셋에서 BERT, BioBERT, SciBERT, RoBERTa, ALBERT와 비교하여 성능을 평가한다.

실험 결과

연구 질문

RQ1트윗 코퍼스에 특화해 사전 훈련된 언어 모델이 일반 도메인 BERT 모델보다 트위터 텍스트 분석 작업에서 뚜렷한 성능 향상을 이룰 수 있는가?
RQ2트윗 데이터에 대한 계속적인 사전 훈련이 일반 트위터 외의 NLP 벤치마크, 특히 비트위터 도메인에서도 성능에 어떤 영향을 미치는가?
RQ3모델 초기화 방식(BERT 대비 ALBERT)과 어휘 설계(BaseVocab 대비 SciVocab)가 트윗 이해 성능에 미치는 영향은 어떠한가?
RQ4TweetBERT 모델이 생물의학적 또는 과학적 텍스트와 같은 다른 도메인으로까지 일반화되는 정도는 어느 정도인가?
RQ5다양한 종류의 NLP 작업과 데이터셋에서 기존 BERT 변종 대비 TweetBERT의 마진 성능 향상은 어느 정도인가?

주요 결과

TweetBERTv1과 TweetBERTv2는 모든 트위터 데이터셋에서 일반 BERT, BioBERT, SciBERT, RoBERTa, ALBERT보다 평균적으로 7퍼센트 이상 높은 성능을 기록한다.
TweetBERTv2는 트위터 데이터셋에서 총 정확도 향상 측면에서 ALBERT 대비 167.17%의 마진 성능 향상을 달성한다.
트위터 감성 분석 작업에서 TweetBERTv2는 Sentiment140 데이터셋에서 95.18%의 정확도를 기록하여 BERT(85.63%)와 ALBERT(90.59%)를 모두 초월한다.
TweetBERTv1은 논문 분야 데이터셋에서 BERT 대비 22.13%의 마진 향상을 보이며 과학적 텍스트 분류 작업에서 뛰어난 성능을 입증한다.
TweetBERT 모델는 일반화 능력을 보이며, 여러 생물의학 데이터셋에서 BioBERT를 능가함으로써 도메인 간 전이 가능성(transferability)을 시사한다.
TweetBERTv2에 SciVocab 통합이 이루어져 과학적 및 기술적 내용을 포함한 트윗의 효과적인 분석이 가능해졌으며, 과학적 파싱 및 분류 작업에서 성능 향상을 이끌어냈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.