QUICK REVIEW

[논문 리뷰] Some Like it Hoax: Automated Fake News Detection in Social Networks

Eugenio Tacchini, Gabriele Ballarin|arXiv (Cornell University)|2017. 04. 25.

Misinformation and Its Impacts참고 문헌 14인용 수 118

한 줄 요약

논문은 로지스틱 회귀와 조화로운 크라우드소싱 접근법을 사용하여 게시물을 좋아하는 사용자 집합에서 허위 정보 분류를 수행할 수 있음을 보이며, 최소한의 라벨 데이터로 Facebook 데이터셋에서 99% 이상의 정확도를 달성합니다.

ABSTRACT

In recent years, the reliability of information on the Internet has emerged as a crucial issue of modern society. Social network sites (SNSs) have revolutionized the way in which information is spread by allowing users to freely share content. As a consequence, SNSs are also increasingly used as vectors for the diffusion of misinformation and hoaxes. The amount of disseminated information and the rapidity of its diffusion make it practically impossible to assess reliability in a timely manner, highlighting the need for automatic hoax detection systems. As a contribution towards this objective, we show that Facebook posts can be classified with high accuracy as hoaxes or non-hoaxes on the basis of the users who "liked" them. We present two classification techniques, one based on logistic regression, the other on a novel adaptation of boolean crowdsourcing algorithms. On a dataset consisting of 15,500 Facebook posts and 909,236 users, we obtain classification accuracies exceeding 99% even when the training set contains less than 1% of the posts. We further show that our techniques are robust: they work even when we restrict our attention to the users who like both hoax and non-hoax posts. These results suggest that mapping the diffusion pattern of information can be a useful component of automatic hoax detection systems.

연구 동기 및 목표

소셜 네트워크에서의 빠른 잘못된 정보 확산으로 자동 허위정보 탐지를 촉진한다.
게시물을 좋아하는 대중이 그 허위 여부를 드러내는지 여부를 조사한다.
사용자-게시물 상호작용 데이터에서 작동하는 두 가지 분류기를 개발한다.
페이지와 커뮤니티 전반에 걸친 방법의 확장성 및 전이 가능성을 평가한다.

제안 방법

각 게시물을 그것을 좋아한 사용자의 이진 벡터로 표현하고 로지스틱 회귀를 적용하여 허위/비허위 예측을 위한 사용자 가중치를 학습한다.
긍정 투표로 좋아요를 모델링하고 α/β 매개변수를 업데이트하여 훈련 세트가 라벨링된 설정에서 부울 라벨 크라우드소싱(조화 알고리즘)을 적용한다.
라벨이 부여된 게시물에서 라벨되지 않은 게시물로 정보를 전파하기 위해 반복 업데이트를 수행하는 게시물-사용자 이분 그래프를 사용한다.
로지스틱 회귀에서 가중치 w_u는 각 사용자가 비허위 포스트에 좋아요를 누리는 경향성을 암호화한다.
조화 BLC에서 알려진 허위 게시물과 알려진 비허위 게시물을 초기화한 다음, α/β 카운트를 통해 사용자 및 게시물 신념을 반복적으로 업데이트한다.

실험 결과

연구 질문

RQ1허위 정보가 상호작용하는 사용자 집합(좋아요를 누르는 집합)으로 식별될 수 있는가?
RQ2수동으로 라벨링된 학습 데이터의 크기가 커질수록 분류 정확도는 어떻게 달라지는가?
RQ3다른 Facebook 페이지(커뮤니티) 간 정보 전이가 얼마나 잘 이루어지는가?
RQ4상대적으로 혼합된 사용자 커뮤니티(교차 데이터셋)를 고려할 때 방법은 얼마나 견고한가?

주요 결과

실험	한 페이지 제외 평균 정확도	한 페이지 제외 표준편차	반 페이지 제외 평균 정확도	반 페이지 제외 표준편차
로지스틱 회귀	0.794	0.303	0.716	0.143
조화 BLC	0.991	0.023	0.993	0.002

두 방법 모두 전체 데이터셋에서 높은 정확도를 달성하며, 훨씬 작은 학습 세트로도 99%를 초과한다.
조화 BLC 방법은 다른 페이지에서 학습할 때도 거의 완벽한 교차 페이지 전송 정확도(약 99% 이상)를 보이며, 라벨 데이터가 제한적이어도 마찬가지이다.
교차 교차 데이터셋에서 로지스틱 회귀는 학습 데이터가 작을 때 조화 BLC보다 우수한 성능을 보이며, 10% 학습에서 약 90%의 정확도를 달성한다.
조화 BLC는 약 0.5%의 게시물(약 80개 게시물)에 라벨을 부여하고도 전체 데이터셋에서 99% 이상 정확도를 달성할 수 있다.
이 접근법은 허위 페이지와 비허위 페이지 간의 극성화 및 중첩되는 사용자 커뮤니티에 대해 강건함을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.