QUICK REVIEW

[논문 리뷰] A Stylometric Inquiry into Hyperpartisan and Fake News

Martin Potthast, Johannes Kiesel|arXiv (Cornell University)|2017. 02. 18.

Authorship Attribution and Profiling참고 문헌 19인용 수 61

한 줄 요약

이 논문은 작문 스타일을 분석하여 하이퍼당파적(hyperpartisan) 뉴스와 주류 뉴스 및 풍자를 구분하고, Unmasking을 사용한 스타일을 이용한 BuzzFeed‑Webis 코퍼스에서 가짜 뉴스 탐지를 평가한다; 결과는 하이퍼당파적 스타일이 주류와 구별 가능하다는 점, 좌/우 파벌 간에도 스타일적 유사성이 존재한다는 점, 그리고 스타일만으로는 가짜 뉴스 탐지에 한계가 있음을 보여준다.

ABSTRACT

This paper reports on a writing style analysis of hyperpartisan (i.e., extremely one-sided) news in connection to fake news. It presents a large corpus of 1,627 articles that were manually fact-checked by professional journalists from BuzzFeed. The articles originated from 9 well-known political publishers, 3 each from the mainstream, the hyperpartisan left-wing, and the hyperpartisan right-wing. In sum, the corpus contains 299 fake news, 97% of which originated from hyperpartisan publishers. We propose and demonstrate a new way of assessing style similarity between text categories via Unmasking---a meta-learning approach originally devised for authorship verification---, revealing that the style of left-wing and right-wing news have a lot more in common than any of the two have with the mainstream. Furthermore, we show that hyperpartisan news can be discriminated well by its style from the mainstream (F1=0.78), as can be satire from both (F1=0.81). Unsurprisingly, style-based fake news detection does not live up to scratch (F1=0.46). Nevertheless, the former results are important to implement pre-screening for fake news detectors.

연구 동기 및 목표

하이퍼당파적 뉴스가 작문 스타일에 의해 주류 뉴스와 구별될 수 있는지 조사한다.
좌익 및 우익 뉴스의 작문 스타일이 스타일상 유사한지 탐색한다.
스타일 특징만으로 가짜 뉴스를 탐지할 수 있는지와 풍자(satire)가 스타일 기반 탐지에 어떻게 연결되는지 평가한다.

제안 방법

이 방법은 저자 확인(original authorship verification)을 위해 고안된 메타-학습 스타일 분석인 Unmasking을 좌향(left), 우향(right), 주류(mainstream)으로 구성된 기사 세트를 비교하는 데 적용한다.
문자 n-그램, 중지어(stop words), 품사 n-그램(POS n-grams), 가독성 점수, 사전 기반 특징, 인용구나 외부 링크와 같은 도메인 특성 등을 포함하는 광범위한 스타일 특징을 추출하고 평가한다.
낮게 발생하는 특징을 제거하고 교차 카테고리 비교 가능성을 보장하기 위해 특징 선택(feature selection)을 사용한다.
하이퍼당파적 대 주류, 방향성 예측, 풍자 탐지에 대해 스타일 및 주제(feature) 특성으로 랜덤 포레스트(Classifiers)를 학습한다.
주로 거짓에 가까운 기사와 진실과 거짓의 혼합 기사들을 그룹화하여 가짜 뉴스의 정의를 운영화한다.
Cross-카테고리 stylistic closeness를 해석하기 위해 Unmasking 차수(slope) 분석을 통한 스타일 유사성을 시각화한다.

실험 결과

연구 질문

RQ1하이퍼당파적 좌익 및 우익 뉴스 간에 공통의 스타일 패턴이 존재하는가?
RQ2작문 스타일만으로 하이퍼당파적 뉴스를 주류 뉴스와 구별할 수 있으며 풍자를 실제 뉴스와 구별할 수 있는가?
RQ3스타일만으로 가짜 뉴스를 탐지할 수 있는가, 그리고 풍자가 스타일 기반 탐지에 어떤 영향을 미치는가?

주요 결과

하이퍼당파적 좌익 및 우익 기사들은 주류 기사에 비해 상당한 스타일적 유사성을 보이며 Unmasking 곡선으로 입증된다.
스타일 기반 분류기는 하이퍼당파적 뉴스와 주류 뉴스를 구별하는 데 주목할 만한 정확도와 재현율을 제공한다(가장 좋은 스타일 기반 하이퍼당파적 대 주류: 정확도 0.75, 하이퍼당파적 재현율 0.89).
주제 기반(단어 차집합) 모델이 일부 3클래스 방향성 예측에서 스타일 모델보다 성능이 앞서는 경우가 있어, 주제 신호가 더 세밀한 분류에 중요하다는 것을 시사한다.
스타일 특징은 풍자 탐지에서 강력한 성능을 보여(정확도 0.82, F1 0.81), 풍자는 스타일적으로 가짜/진짜 뉴스와 구분된다.
스타일만으로 가짜 뉴스 탐지는 다소 보수적 성능을 보이며(정확도 0.55, F1 약 0.41–0.63, 설정에 따라 달라짐), 스타일 선별이 보조적으로는 도움을 주지만 단독으로는 충분하지 않다.
풍자는 스타일 측면에서 가짜/진짜 뉴스보다 더 멀리 위치하여 언어 표현 차이에 기반한 신뢰 가능한 구분이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.