Skip to main content
QUICK REVIEW

[논문 리뷰] Fake News Detection in Social Media using Graph Neural Networks and NLP Techniques: A COVID-19 Use-case

Abdullah Hamid, Nasrullah Shiekh|arXiv (Cornell University)|2020. 11. 30.
Misinformation and Its Impacts참고 문헌 10인용 수 23
한 줄 요약

이 논문은 코로나19 팬데믹 기간 동안 소셜 미디어에서 가짜 뉴스 탐지하기 위한 하이브리드 접근법을 제안한다. Bag-of-Words (BoW), BERT 임베딩, 그리고 그래프 신경망(GNNs)을 결합하여 트윗 텍스트와 재트윗 네트워크 구조를 모두 분석한다. 이는 이진 분류에서 F1 스코어 0.693, 구조 기반 탐지에서 AUC-ROC 0.95를 기록하며, NLP와 그래프 기반 방법을 융합함으로써 5G 및 기타 음모론 관련 가짜 정보를 효과적으로 탐지할 수 있음을 보여준다.

ABSTRACT

The paper presents our solutions for the MediaEval 2020 task namely FakeNews: Corona Virus and 5G Conspiracy Multimedia Twitter-Data-Based Analysis. The task aims to analyze tweets related to COVID-19 and 5G conspiracy theories to detect misinformation spreaders. The task is composed of two sub-tasks namely (i) text-based, and (ii) structure-based fake news detection. For the first task, we propose six different solutions relying on Bag of Words (BoW) and BERT embedding. Three of the methods aim at binary classification task by differentiating in 5G conspiracy and the rest of the COVID-19 related tweets while the rest of them treat the task as ternary classification problem. In the ternary classification task, our BoW and BERT based methods obtained an F1-score of .606% and .566% on the development set, respectively. On the binary classification, the BoW and BERT based solutions obtained an average F1-score of .666% and .693%, respectively. On the other hand, for structure-based fake news detection, we rely on Graph Neural Networks (GNNs) achieving an average ROC of .95% on the development set.

연구 동기 및 목표

  • 2020년 초에 트위터 데이터에서 코로나19 및 5G 음모론 관련 가짜 뉴스를 탐지하기 위해.
  • 앙상블 샘플링 및 라이트 퓨전 기법을 활용하여 가짜 뉴스 데이터셋의 클래스 불균형 문제를 해결하기 위해.
  • 텍스트 기반 가짜 뉴스 분류를 위한 NLP 기반 모델(BoW 및 BERT)의 효과성을 평가하기 위해.
  • 재트윗 네트워크 구조의 위상 정보를 활용하여 그래프 신경망(GNNs)을 통해 구조 기반 가짜 뉴스 탐지 기법을 탐색하기 위해.
  • 텍스트적 신호와 구조적 신호를 융합하여 가짜 뉴스 유포자들을 향상된 성능으로 식별하기 위해.

제안 방법

  • 텍스트 기반 접근법은 BoW와 BERT 임베딩을 사용하며, 텍스트 전처리 과정에서标점, URL, 이모티콘, 정지어를 제거한다.
  • BoW 특징에 대해 나이브 베이즈 분류기를 훈련하고, BERT가 생성한 단어 임베딩에 대해 로지스틱 회귀를 적용한다.
  • 클래스 불균형 문제를 완화하기 위해 다수 클래스를 N개의 부분으로 나누고 N개의 모델을 훈련한 후, 다수결 투표 또는 점수 합산을 통한 라이트 퓨전 기법을 적용한다.
  • 구조 기반 탐지에 대해 GNN은 k-호프 이웃 집합을 통한 노드 표현 학습을 수행하며, SUM 및 MEAN 풀링 연산을 사용한다.
  • 그래프 수준의 표현은 그래프 READOUT를 통해 확보되며, 최종 모델은 1000 에포크, 학습률 0.01, 드롭아웃 0.3을 사용해 훈련된다.
  • 모델 평가 시 테스트 세트의 10%를 보류하고 AUC-ROC를 사용하여 그래프 구조에 대한 높은 분류 성능을 확보한다.

실험 결과

연구 질문

  • RQ1불균형 데이터를 가진 코로나19 관련 트윗에서 BoW 및 BERT 기반 모델이 5G 및 기타 음모론 이론을 효과적으로 탐지할 수 있는가?
  • RQ2재샘플링된 데이터로 훈련된 다수의 모델을 라이트 퓨전하는 방식이 텍스트 기반 가짜 뉴스 탐지 성능을 향상시키는가?
  • RQ3그래프 신경망(GNNs)이 재트윗 네트워크의 구조를 효과적으로 분류하여 5G 및 기타 음모론 이론을 구분할 수 있는가?
  • RQ4다양한 융합 전략(다수결 투표 대비 점수 합산)이 가짜 뉴스 탐지에서 앙상블 모델의 성능에 어떤 영향을 미치는가?
  • RQ5소셜 네트워크의 구조적 패턴이 가짜 뉴스 유포자 식별에 신뢰할 수 있는 지표가 될 수 있는가?

주요 결과

  • 개발 세트에서 BoW 기반 방법은 삼분류 분류에서 F1 스코어 0.606을 기록했고, BERT 기반 모델은 0.566을 기록했다.
  • 이진 분류에서 BoW 및 BERT 모델은 평균 F1 스코어 각각 0.666과 0.693을 기록했으며, 삼분류 분류를 초월해 더 높은 성능을 보였다.
  • 구조 기반 GNN 모델은 개발 세트에서 평균 ROC 0.95를 기록하여 그래프 수준의 분류에 강력한 분류 능력을 보였다.
  • 가장 뛰어난 성능을 보인 실행 결과(Run 4)는 BoW와 다수결 투표를 조합하여 F1 스코어 0.693과 테스트 세트 AUC-ROC 0.3944를 기록했다.
  • 결과는 재트윗 네트워크의 구조적 패턴이 음모론 유형 간에 상당히 다름을 시사하며, GNN을 통한 효과적인 탐지가 가능함을 보여준다.
  • 라인 퓨전 전략, 특히 다수결 투표 방식이 개별 모델보다 성능 향상을 이끌었으며, 특히 클래스 불균형 문제에 대응하는 데 유리했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.