QUICK REVIEW

[논문 리뷰] When is it Biased? Assessing the Representativeness of Twitter's Streaming API

Fred Morstatter, Jürgen Pfeffer|arXiv (Cornell University)|2014. 01. 30.

Mobile Crowdsensing and Crowdsourcing참고 문헌 14인용 수 45

한 줄 요약

이 논문은 Firehose 데이터에 접근할 수 없는 상황에서 공개된 Sample API를 대표성 있는 프록시로 사용하여 Twitter Streaming API의 편향을 탐지하는 방법을 제안한다. Streaming API의 트렌드가 실제 Twitter 활동과 유의미하게 다를 때의 시간대를 특정하며, 지리적 및 시간적 차이가 있는 쿼리 간에 높은 일관성을 보이며, 연구자들이 오직 개방형 데이터 소스만을 사용하여도 편향을 탐지할 수 있도록 한다.

ABSTRACT

Twitter has captured the interest of the scientific community not only for its massive user base and content, but also for its openness in sharing its data. Twitter shares a free 1% sample of its tweets through the "Streaming API", a service that returns a sample of tweets according to a set of parameters set by the researcher. Recently, research has pointed to evidence of bias in the data returned through the Streaming API, raising concern in the integrity of this data service for use in research scenarios. While these results are important, the methodologies proposed in previous work rely on the restrictive and expensive Firehose to find the bias in the Streaming API data. In this work we tackle the problem of finding sample bias without the need for "gold standard" Firehose data. Namely, we focus on finding time periods in the Streaming API data where the trend of a hashtag is significantly different from its trend in the true activity on Twitter. We propose a solution that focuses on using an open data source to find bias in the Streaming API. Finally, we assess the utility of the data source in sparse data situations and for users issuing the same query from different regions.

연구 동기 및 목표

Twitter Streaming API에서 편향을 탐지할 수 있는 저비용 방법의 부족을 해결하기 위해, 널리 사용되지만 잠재적으로 대표성이 떨어질 수 있는 Streaming API의 편향을 탐지할 수 있는 방법을 개발한다.
Firehose 전체 데이터에 접근하지 않고도 Streaming API 데이터에서 심각한 편향을 보이는 시간대를 탐지할 수 있는 방법을 개발한다.
Streaming API 결과의 편향을 탐지하기 위한 기준으로서 Sample API의 대표성에 대해 평가한다.
동일한 쿼리가 다른 지리적 위치와 시간 간격에서 일관된 결과를 제공하는지 평가한다.
연구자들이 소셜 미디어 데이터의 편향 탐지에 대해 Firehose 기반 검증 대신 실용적이고 오픈소스 대안을 제공한다.

제안 방법

Twitter Sample API(모든 트윗의 1% 랜덤 샘플)를 사용하여 Streaming API 결과와 비교하기 위한 기준 데이터셋으로 활용한다.
미국과 오스트리아에서 동시에 발행된 동일한 쿼리의 트윗 ID 집합을 비교하여 지리적 일관성을 평가한다.
연속된 Streaming API 쿼리의 겹치는 10분 간격을 비교하여 시간적 안정성(시간에 따른 안정성)을 평가한다.
다른 쿼리 간의 트윗 ID 집합 간 겹침을 정량화하기 위해 Jaccard 유사도 계수를 사용한다. 이는 대표성을 측정한다.
다양한 쿼리에 걸쳐 Jaccard 점수를 통계적으로 분석하여 편향을 나타내는 유의미한 이격을 탐지한다.
고트래픽 쿼리에서 방법을 검증하여, Streaming API 트렌드가 Sample API 기준선과 유의미하게 다를 때의 시간 창을 식별한다.

실험 결과

연구 질문

RQ1Firehose 접근 없이 Sample API가 Streaming API의 편향 탐지에 신뢰할 수 있는 프록시로 기능할 수 있는가?
RQ2동일한 쿼리에 대해 Streaming API 결과가 서로 다른 지리적 지역에서 일관된가?
RQ3다른 시간대에 발행된 동일한 쿼리가 Streaming API에서 유사한 결과를 제공하는가?
RQ4어떤 시간대에서 Streaming API 데이터가 진정한 Twitter 활동에 비해 유의미하게 편향되어 있는가?
RQ5낮은 쿼리 볼륨의 희박한 데이터 상황에서 제안된 방법의 효과는 어떠한가?

주요 결과

Sample API는 높은 대표성을 보이며, 미국과 오스트리아 간 지리적 비교에서 중앙값 Jaccard 유사도가 0.976이다.
시간적 비교 결과 근접한 결과를 보였는데, 미국 쿼리의 중앙값 Jaccard 점수는 0.996, 평균은 0.995이며 표준편차는 0.003에 불과했다.
오스트리아 기반 쿼리의 표준편차는 더 높았지만(0.186) 여전히 높은 평균 Jaccard 점수(0.942)를 유지하여 강력한 일관성을 보였다.
이 방법은 Streaming API 트렌드가 Sample API 기준선과 유의미하게 다를 때의 시간대를 성공적으로 식별하여 잠재적 편향을 탐지할 수 있었다.
이 방법은 고볼륨 쿼리에 가장 효과적이며, Sample API에서 신호가 제한된 희박한 데이터 상황에서는 성능이 저하된다.
본 연구는 Streaming API 결과가 지역 및 시간 창 간에 매우 일관되며, 기준 방법의 타당성을 뒷받침함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.