QUICK REVIEW

[논문 리뷰] A method to evaluate the reliability of social media data for social network analysis

Derek Weber, Mehwish Nasim|arXiv (Cornell University)|2020. 10. 17.

Complex Network Analysis Techniques참고 문헌 36인용 수 9

한 줄 요약

이 논문은 RAPID와 Twarc라는 두 가지 도구를 통해 수집한 병렬 데이터셋을 비교하여 소셜 미디어 데이터의 신뢰성 평가를 위한 체계적 방법론을 제안한다. 이는 트위터에서 수행된 연구로, 데이터 수집 도구의 차이가 네트워크 구조와 중심성 순위에 상당한 영향을 미치며, 특히 언급 네트워크에서 이러한 영향이 심해져 사회적 네트워크 분석 결과의 재현 가능성과 타당성을 떨어뜨린다.

ABSTRACT

To study the effects of Online Social Network (OSN) activity on real-world offline events, researchers need access to OSN data, the reliability of which has particular implications for social network analysis. This relates not only to the completeness of any collected dataset, but also to constructing meaningful social and information networks from them. In this multidisciplinary study, we consider the question of constructing traditional social networks from OSN data and then present a measurement case study showing how the reliability of OSN data affects social network analyses. To this end we developed a systematic comparison methodology, which we applied to two parallel datasets we collected from Twitter. We found considerable differences in datasets collected with different tools and that these variations significantly alter the results of subsequent analyses. Our results lead to a set of guidelines for researchers planning to collect online data streams to infer social networks.

연구 동기 및 목표

소셜 미디어 데이터 수집 도구의 차이가 사회적 네트워크 분석(SNA) 결과의 신뢰성과 타당성에 미치는 영향을 조사하는 것.
특히 샘플링 및 경계 설정 문제에 관해 표준화된 평가 방법이 부족한 소셜 미디어 데이터 품질 평가의 부족을 보완하는 것.
네트워크 수준 및 노드 수준의 지표에 미치는 데이터 수집 도구의 영향을 평가하기 위한 체계적 비교 프레임워크를 개발하는 것.
연구자가 데이터 무결성과 분석의 재현 가능성을 확보하기 위해 소셜 미디어 수집 도구를 선택하고 평가하는 데 실질적인 지침을 제공하는 것.
특히 중심성 및 군집 지표에서 도구 특유의 데이터 수집 편향으로 인해 편향되거나 완전하지 않은 네트워크 추론이 발생할 위험을 부각하는 것.

제안 방법

동일한 키워드 기반 쿼리로 RAPID와 Twarc라는 두 가지 다른 도구를 사용해 트위터에서 병행 데이터셋을 수집하였다.
상호작용(언급, 답장, 재트윗)에서 사회적 네트워크를 구축하여 정보 및 사회적 관계를 모델링하였다.
각 네트워크에 대해 표준 SNA 지표인 차수, 가까움, 간접성, 고유벡터 중심성 등을 적용하여 노드 순위를 비교하였다.
RAPID와 Twarc 데이터셋 간 중심성 순위 유사도를 정량화하기 위해 스토르머의 τ 및 페어슨의 ρ와 같은 통계적 측도를 사용하였다.
가장 큰 연결된 성분 간의 유사도를 비교하기 위해 조정된 랜드 지수(ARI)를 사용한 군집 분석을 수행하였다.
시간 창(4시간 대비 15시간)을 두 단계로 나누어 네트워크 구조 및 데이터 완전성에 대한 시간적 영향과 도구의 영향을 평가하기 위해 사례 연구를 수행하였다.

실험 결과

연구 질문

RQ1RAPID와 Twarc와 같은 데이터 수집 도구의 차이가 소셜 미디어 데이터에서 파생된 사회적 네트워크의 구조에 어떻게 영향을 미치는가?
RQ2수집된 데이터의 차이(예: 트윗 수, 언급 빈도, 고유 사용자 수)가 사회적 네트워크 분석에서 중심성 순위에 얼마나 큰 영향을 미치는가?
RQ3수집 도구의 편향이 온라인 논의에서 영향력 있는 인물의 특정화에 어떤 영향을 미치는가?
RQ4다른 데이터 수집 방법과 시간 창에서 네트워크 군집(예: 가장 큰 연결된 성분)은 얼마나 안정적인가?
RQ5데이터 수집의 변동성이 소셜 미디어 연구 결과의 재현 가능성과 타당성에 어떤 영향을 미치는가?

주요 결과

Twarc는 RAPID보다 훨씬 더 많은 트윗(11,480개의 고유 트윗, 1부 기준)을 수집했으며, 고유 계정 수가 34% 더 많아 더 크고 복잡한 네트워크 구조를 형성하였다.
특히 1부에서 Twarc의 언급 네트워크는 엣지 수가 훨씬 더 많았으며, 이는 노드 중심성 순위에 직접적인 영향을 미쳤다.
스피어만의 ρ와 켄달의 τ 계수를 통해 RAPID와 Twarc 간 중심성 순위의 유사도가 낮게 나타났으며, 특히 차수 중심성과 가까움 중심성에서 높은 수준의 수집 방법 민감도를 보였다.
간접성 중심성과 고유벡터 중심성의 경우 도구 간에 더 안정적이었으며, 이는 국소적 엣지 변화보다는 전반적인 네트워크 구조에 덜 영향을 받는다는 것을 시사한다.
답장 및 재트윗 군집은 2부에서 가장 유사했으며(ARI = 0.756 및 0.738), 더 긴 15시간 수집 창으로 인해 데이터 일관성이 향상되었기 때문으로 보인다.
언급 네트워크 군집은 1부에서 더 이질적이었으며(ARI = 0.320 및 0.350), RAPID의 키워드 확장 전략이 목표 외 계정의 게시물을 수집하면서 노이즈와 구조적 편향을 유발했기 때문일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.