Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Reporting Dynamics during Breaking News for Rumour Detection in Social Media

Arkaitz Zubiaga, Maria Liakata|arXiv (Cornell University)|2016. 10. 24.
Misinformation and Its Impacts참고 문헌 21인용 수 150
한 줄 요약

이 논문은 이벤트 내의 보고 다이내믹스를 활용하여 트윗을 조회하지 않고도 속보 트윗 스트림에서 루머를 탐지하는 순차 CRF 기반 접근법을 제시합니다. Zhao et al.의 문의 기반 방법을 포함한 최첨단 및 비순차적 baselines를 능가합니다.

ABSTRACT

Breaking news leads to situations of fast-paced reporting in social media, producing all kinds of updates related to news stories, albeit with the caveat that some of those early updates tend to be rumours, i.e., information with an unverified status at the time of posting. Flagging information that is unverified can be helpful to avoid the spread of information that may turn out to be false. Detection of rumours can also feed a rumour tracking system that ultimately determines their veracity. In this paper we introduce a novel approach to rumour detection that learns from the sequential dynamics of reporting during breaking news in social media to detect rumours in new stories. Using Twitter datasets collected during five breaking news stories, we experiment with Conditional Random Fields as a sequential classifier that leverages context learnt during an event for rumour detection, which we compare with the state-of-the-art rumour detection system as well as other baselines. In contrast to existing work, our classifier does not need to observe tweets querying a piece of information to deem it a rumour, but instead we detect rumours from the tweet alone by exploiting context learnt during the event. Our classifier achieves competitive performance, beating the state-of-the-art classifier that relies on querying tweets with improved precision and recall, as well as outperforming our best baseline with nearly 40% improvement in terms of F1 score. The scale and diversity of our experiments reinforces the generalisability of our classifier.

연구 동기 및 목표

  • 속보 트위터 타임라인에서 루머와 비루머에 대한 데이터 수집 및 주석 부여 방법론을 개발합니다.
  • 이전 보고의 맥락을 활용하는 순차 학습 접근법을 제안하여 실시간 트윗에서 루머를 탐지합니다.
  • CRF를 비순차적 baselines 및 Zhao et al.의 문의 기반 방법과 여러 속보 이벤트로 평가합니다.

제안 방법

  • 저널리스트 주도 주석이 달린 다섯 개의 속보 트위터 데이터셋을 수집하여 트윗을 루머 또는 비루머로 주석 달기.
  • 각 트윗의 맥락으로 이벤트 다이내믹스를 포착하기 위해 Linear-Chain Conditional Random Fields (CRF)로 트윗을 시퀀스로 모델링합니다.
  • CRF를 Maximum Entropy(비순차적) 및 Zhao et al.의 문의 기반 baseline과 비교합니다.
  • 두 가지 특징 세트를 사용합니다: 콘텐츠 기반 특징(Word2Vec, POS, 구두점 및 개수)과 사회적 특징(작성자 메타데이터).
  • 4개의 이벤트로 학습하고 다섯 번째를 테스트하는 5-폴드 교차검증으로 평가합니다; 미세 평균 지표를 보고합니다.

실험 결과

연구 질문

  • RQ1속보 타임라인에서 앞선 트윗의 맥락이 트윗 단독 분류기보다 루머 탐지 정확도를 향상시킬 수 있나요?
  • RQ2순차 모델(CRF)이 비순차적 분류기 및 최첨단 문의 기반 방법보다 여러 이벤트에서 루머 탐지에 더 나은가요?
  • RQ3어떤 특징 세트가 루머 탐지 성능을 최대화하나요(콘텐츠 대 사회적 대 합성)?
  • RQ4다양한 속보 이벤트 및 보고 단계에서 이 접근법의 강건성은 어떠한가요?

주요 결과

  • 콘텐츠 기반 특징으로 구성된 CRF가 최적의 성능을 보이며 특히 정밀도에서 강하고 분류기 중 가장 높은 F1 점수를 달성합니다.
  • 콘텐츠와 사회적 특징의 결합을 사용한 CRF가 기준선(상호 정보량 기반 모델 등)을 능가하며 두 번째로 높은 분류기(Naive Bayes) 대비 약 39.9%의 F1 향상을 보입니다.
  • 문의 기반 기준(Zhao et al.)은 높은 정밀도를 가지나 재현율이 매우 낮아(정밀도 0.41, 재현율 매우 낮음) CRF에 비해 전체 성능이 떨어집니다.
  • 사회적 특징만으로는 콘텐츠 기반 특징에 비해 성능이 떨어지며 두 유형의 특징을 결합한 것이 CRF의 최적 F1를 제공합니다.
  • CRF는 초기 이벤트 단계와 다양한 이벤트에서도 이점이 유지되어 시퀀스-맥락 접근법의 일반화를 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.