[논문 리뷰] Multi-Source Social Feedback of Online News Feeds
이 논문은 2015년 11월에서 2016년 7월까지 8개월 간 Google 뉴스와 야후! 뉴스에서 수집한 10만 건의 뉴스 기사에 대해 페이스북, 구글+, 리드링크에서의 인기 지표를 포함한 대규모 다중 소스 사회적 피드백 데이터셋을 소개한다. 이 데이터셋은 뉴스 추천, 감성 분석, 랭킹 학습 등의 작업을 지원하며, 네 가지 주제에 걸쳐 포괄적이고 익명화된, 공개 가능한 사회적 참여 데이터를 제공함으로써 예측 분석 평가에 유용하다.
The profusion of user generated content caused by the rise of social media platforms has enabled a surge in research relating to fields such as information retrieval, recommender systems, data mining and machine learning. However, the lack of comprehensive baseline data sets to allow a thorough evaluative comparison has become an important issue. In this paper we present a large data set of news items from well-known aggregators such as Google News and Yahoo! News, and their respective social feedback on multiple platforms: Facebook, Google+ and LinkedIn. The data collected relates to a period of 8 months, between November 2015 and July 2016, accounting for about 100,000 news items on four different topics: economy, microsoft, obama and palestine. This data set is tailored for evaluative comparisons in predictive analytics tasks, although allowing for tasks in other research areas such as topic detection and tracking, sentiment analysis in short text, first story detection or news recommendation.
연구 동기 및 목표
- 뉴스 추천 및 사회적 피드백 분석 분야에서 예측 분석을 평가하기 위한 종합적이고 접근 가능하며 대규모 기준 데이터셋의 부족 문제를 해결하기 위해.
- 주요 뉴스 집계자들로부터의 뉴스 기사에 대해 페이스북, 구글+, 리드링크 등의 다양한 플랫폼에서의 소셜 미디어 참여 데이터(공유, 좋아요, +1)를 수집하고 통합하기 위해.
- 학습 랭킹, 감성 분석, 주제 추적과 같은 다양한 연구 과제에 대해 비교 평가를 지원하는 표준화된 공개 데이터셋을 만들기 위해.
- 개인식별 정보가 포함되지 않은 익명화된 집계 데이터와 공개 가능한 소셜 미디어 API에만 의존함으로써 윤리적인 데이터 사용을 보장하기 위해.
- 정보 검색, 추천 시스템, 기계 학습 분야의 연구자들이 재현 가능하고 잘 문서화된 데이터 소스를 확보하기 위해.
제안 방법
- 2015년 11월에서 2016년 7월까지 8개월 간 경제, 마이크로소프트, 오바마, 팔레스타인이라는 네 가지 주제에 대해 Google 뉴스와 야후! 뉴스에서 10만 건의 뉴스 기사를 수집하였다.
- 공식 미디어 소스(뉴스 집계자)를 활용하여 뉴스 콘텐츠와 랭킹 순위를 확보하였으며, 이는 뉴스 기사에 대한 진실의 기준이 되는 소스로 기능한다.
- 공개 API를 통해 사회적 피드백을 수집: 페이스북 그래프 API를 통해 공유 수, 구글+ 공개 엔드포인트를 통해 +1 수, 리드링크 공개 엔드포인트를 통해 공유 수를 확보하였다.
- 시간 슬라이스 기반 데이터 수집을 매 20분마다 수행하였으며, 각 시간 슬라이스 별로 인기 지표를 집계하여 뉴스의 퍼진 방식의 시간적 동적 변화를 추적하였다.
- 누락된 데이터는 접근 불가능한 인기 지표로 -1로 표기하였으며, 페이스북의 12.4%, 구글+의 6.2%, 리드링크의 6.2%의 경우 API 제한 또는 가용성 부족으로 인해 누락되었다.
- 사용자 수준의 식별자 없이, 집계된 익명화된 공개 가능한 메트릭스만을 사용하여 데이터 프라이버시를 확보하였다.
실험 결과
연구 질문
- RQ1주요 뉴스 집계자들에서 유래한 뉴스 기사들이 다양한 소셜 미디어 플랫폼에서 퍼지기 위한 인기와 참여도 측면에서 어떻게 성과를 내는가?
- RQ2동일한 뉴스 기사에 대해 페이스북, 구글+, 리드링크에서의 사회적 피드백이 얼마나 상관관계가 있거나 상이한가?
- RQ3사회적 피드백 데이터의 가용성은 시간이 지남에 따라 어떻게 변화하는가? 이는 모델링 및 평가에 어떤 영향을 미치는가?
- RQ4이 다중 소스 데이터셋이 뉴스 추천 및 랭킹 학습 분야에서 예측 모델의 훈련 및 평가를 위한 신뢰할 수 있는 기준이 될 수 있는가?
- RQ5페이스북, 구글+, 리드링크와 같은 다양한 소셜 플랫폼은 뉴스 콘텐츠에 대해 어떤 다른 사용자 행동 양식과 콘텐츠 소비 패턴을 반영하는가?
주요 결과
- 이 데이터셋은 8개월 간 수집된 Google 뉴스와 야후! 뉴스의 10만 건의 뉴스 기사로 구성되어 있으며, 네 가지 주제에 걸쳐 다중 플랫폼 사회적 피드백을 포함하고 있다.
- 페이스북에서는 12.4%의 경우 공유 수가 누락되었고, 28.9%의 경우 공유가 전혀 없었으며, 이는 사회적 참여에서 뚜렷한 데이터 희소성 존재를 시사한다.
- 구글+는 6.2%의 +1 수가 누락되었고, 뉴스 기사의 59.1%가 +1을 받지 못했으며, 이는 뉴스 콘텐츠에 대해 이 플랫폼에서의 참여도가 낮음을 보여준다.
- 리드링크는 6.2%의 데이터 누락과 함께 뉴스 기사의 58.4%가 공유되지 않았으며, 이는 이 전문 네트워크에서 뉴스의 도달 범위가 제한적임을 나타낸다.
- 총 12.4%의 페이스북, 6.2%의 구글+, 6.2%의 리드링크 인기 데이터가 API 제한 또는 참여 부족으로 인해 확보되지 못하였다.
- 이 데이터셋은 http://www.dcc.fc.up.pt/~nmoniz/MultiSourceNews 에서 공개 가능하며, 즉시 사용 가능한 R 스크립트를 포함하고 있어 연구 프로토타이핑을 빠르게 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.