Skip to main content
QUICK REVIEW

[논문 리뷰] A Stylometric Inquiry into Hyperpartisan and Fake News

Martin Potthast, Johannes Kiesel|arXiv (Cornell University)|2017. 02. 18.
Authorship Attribution and Profiling참고 문헌 19인용 수 61
한 줄 요약

이 논문은 작문 스타일을 분석하여 하이퍼당파적(hyperpartisan) 뉴스와 주류 뉴스 및 풍자를 구분하고, Unmasking을 사용한 스타일을 이용한 BuzzFeed‑Webis 코퍼스에서 가짜 뉴스 탐지를 평가한다; 결과는 하이퍼당파적 스타일이 주류와 구별 가능하다는 점, 좌/우 파벌 간에도 스타일적 유사성이 존재한다는 점, 그리고 스타일만으로는 가짜 뉴스 탐지에 한계가 있음을 보여준다.

ABSTRACT

This paper reports on a writing style analysis of hyperpartisan (i.e., extremely one-sided) news in connection to fake news. It presents a large corpus of 1,627 articles that were manually fact-checked by professional journalists from BuzzFeed. The articles originated from 9 well-known political publishers, 3 each from the mainstream, the hyperpartisan left-wing, and the hyperpartisan right-wing. In sum, the corpus contains 299 fake news, 97% of which originated from hyperpartisan publishers. We propose and demonstrate a new way of assessing style similarity between text categories via Unmasking---a meta-learning approach originally devised for authorship verification---, revealing that the style of left-wing and right-wing news have a lot more in common than any of the two have with the mainstream. Furthermore, we show that hyperpartisan news can be discriminated well by its style from the mainstream (F1=0.78), as can be satire from both (F1=0.81). Unsurprisingly, style-based fake news detection does not live up to scratch (F1=0.46). Nevertheless, the former results are important to implement pre-screening for fake news detectors.

연구 동기 및 목표

  • 하이퍼당파적 뉴스가 작문 스타일에 의해 주류 뉴스와 구별될 수 있는지 조사한다.
  • 좌익 및 우익 뉴스의 작문 스타일이 스타일상 유사한지 탐색한다.
  • 스타일 특징만으로 가짜 뉴스를 탐지할 수 있는지와 풍자(satire)가 스타일 기반 탐지에 어떻게 연결되는지 평가한다.

제안 방법

  • 이 방법은 저자 확인(original authorship verification)을 위해 고안된 메타-학습 스타일 분석인 Unmasking을 좌향(left), 우향(right), 주류(mainstream)으로 구성된 기사 세트를 비교하는 데 적용한다.
  • 문자 n-그램, 중지어(stop words), 품사 n-그램(POS n-grams), 가독성 점수, 사전 기반 특징, 인용구나 외부 링크와 같은 도메인 특성 등을 포함하는 광범위한 스타일 특징을 추출하고 평가한다.
  • 낮게 발생하는 특징을 제거하고 교차 카테고리 비교 가능성을 보장하기 위해 특징 선택(feature selection)을 사용한다.
  • 하이퍼당파적 대 주류, 방향성 예측, 풍자 탐지에 대해 스타일 및 주제(feature) 특성으로 랜덤 포레스트(Classifiers)를 학습한다.
  • 주로 거짓에 가까운 기사와 진실과 거짓의 혼합 기사들을 그룹화하여 가짜 뉴스의 정의를 운영화한다.
  • Cross-카테고리 stylistic closeness를 해석하기 위해 Unmasking 차수(slope) 분석을 통한 스타일 유사성을 시각화한다.

실험 결과

연구 질문

  • RQ1하이퍼당파적 좌익 및 우익 뉴스 간에 공통의 스타일 패턴이 존재하는가?
  • RQ2작문 스타일만으로 하이퍼당파적 뉴스를 주류 뉴스와 구별할 수 있으며 풍자를 실제 뉴스와 구별할 수 있는가?
  • RQ3스타일만으로 가짜 뉴스를 탐지할 수 있는가, 그리고 풍자가 스타일 기반 탐지에 어떤 영향을 미치는가?

주요 결과

  • 하이퍼당파적 좌익 및 우익 기사들은 주류 기사에 비해 상당한 스타일적 유사성을 보이며 Unmasking 곡선으로 입증된다.
  • 스타일 기반 분류기는 하이퍼당파적 뉴스와 주류 뉴스를 구별하는 데 주목할 만한 정확도와 재현율을 제공한다(가장 좋은 스타일 기반 하이퍼당파적 대 주류: 정확도 0.75, 하이퍼당파적 재현율 0.89).
  • 주제 기반(단어 차집합) 모델이 일부 3클래스 방향성 예측에서 스타일 모델보다 성능이 앞서는 경우가 있어, 주제 신호가 더 세밀한 분류에 중요하다는 것을 시사한다.
  • 스타일 특징은 풍자 탐지에서 강력한 성능을 보여(정확도 0.82, F1 0.81), 풍자는 스타일적으로 가짜/진짜 뉴스와 구분된다.
  • 스타일만으로 가짜 뉴스 탐지는 다소 보수적 성능을 보이며(정확도 0.55, F1 약 0.41–0.63, 설정에 따라 달라짐), 스타일 선별이 보조적으로는 도움을 주지만 단독으로는 충분하지 않다.
  • 풍자는 스타일 측면에서 가짜/진짜 뉴스보다 더 멀리 위치하여 언어 표현 차이에 기반한 신뢰 가능한 구분이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.