[논문 리뷰] Transformer based Automatic COVID-19 Fake News Detection System
논문은 COVID-19 가짜 뉴스 탐지를 위한 BERT, ALBERT, XLNet 기반 트랜스포머 앙상블을 제시하며 ConstraintAI 2021 English 데이터셋에서 0.9855 F1-점수로 최첨단 성능을 달성하고 160개 팀 중 5위를 차지했다.
Recent rapid technological advancements in online social networks such as Twitter have led to a great incline in spreading false information and fake news. Misinformation is especially prevalent in the ongoing coronavirus disease (COVID-19) pandemic, leading to individuals accepting bogus and potentially deleterious claims and articles. Quick detection of fake news can reduce the spread of panic and confusion among the public. For our analysis in this paper, we report a methodology to analyze the reliability of information shared on social media pertaining to the COVID-19 pandemic. Our best approach is based on an ensemble of three transformer models (BERT, ALBERT, and XLNET) to detecting fake news. This model was trained and evaluated in the context of the ConstraintAI 2021 shared task COVID19 Fake News Detection in English. Our system obtained 0.9855 f1-score on testset and ranked 5th among 160 teams.
연구 동기 및 목표
- 소셜 미디어에서 COVID-19 잘못된 정보의 확산에 동기를 부여하고 이를 해결한다.
- 트랜스포머 모델을 활용한 효율적인 가짜 뉴스 탐지 시스템을 개발한다.
- 표준 COVID-19 가짜 뉴스 데이터셋에서 단일 및 앙상블 트랜스포머 모델을 평가한다.
제안 방법
- 이모티콘 정규화, 해시태그 처리, 어간 추출, 정제를 포함한 소셜 미디어 텍스트 전처리.
- TF-IDF, GloVe 임베딩, 신경망 아키텍처를 사용하여 전통 ML, 딥러닝, 트랜스포머 접근 방식을 비교한다.
- HuggingFace를 사용하여 BERT, ALBERT, XLNet를 미세튜닝하고 앙상블하며 최종 결정은 softmax 확률의 평균으로 수행한다.
실험 결과
연구 질문
- RQ1전통 ML/DL 방법과 비교할 때 트랜스포머 모델(BERT, ALBERT, XLNet)은 COVID-19 가짜 뉴스 탐지에서 얼마나 잘 작동하는가?
- RQ2여러 트랜스포머를 앙상블하는 것이 개별 모델보다 탐지 성능을 향상시키는가?
- RQ3제안된 모델의 ConstraintAI 2021 COVID-19 Fake News English 데이터셋에서의 성능은 어떠한가?
주요 결과
- BERT, ALBERT, XLNet의 앙상블이 테스트 세트에서 가장 높은 F1-스코어 0.9855를 달성한다.
- 트랜스포머 기반 모델은 이 작업에서 전통 ML 및 일부 DL 모델보다 우수하다.
- 개별 트랜스포머(BERT, XLNet, ALBERT)는 강력하지만 앙상블보다 약간 낮은 성능을 보인다.
- 시스템은 ConstraintAI 2021 shared task에서 160개 팀 중 5위를 차지했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.