[논문 리뷰] Information Diffusion and External Influence in Networks
이 논문은 트위터에서의 정보 확산 과정에서 내부 네트워크 확산과 외부 영향(예: 미디어)을 분리하는 확률적 모델을 제안한다. 전체 한 달 간의 트위터 데이터를 분석한 결과, URL 언급의 71%는 네트워크 확산에서 기인하고, 29%는 외부 원인에서 기인함을 확인하여 정보 확산의 '점프' 현상을 유발하는 관측되지 않은 외부 영향이 상당히 크다는 것을 드러낸다.
Social networks play a fundamental role in the diffusion of information. However, there are two different ways of how information reaches a person in a network. Information reaches us through connections in our social networks, as well as through the influence of external out-of-network sources, like the mainstream media. While most present models of information adoption in networks assume information only passes from a node to node via the edges of the underlying network, the recent availability of massive online social media data allows us to study this process in more detail. We present a model in which information can reach a node via the links of the social network or through the influence of external sources. We then develop an efficient model parameter fitting technique and apply the model to the emergence of URL mentions in the Twitter network. Using a complete one month trace of Twitter we study how information reaches the nodes of the network. We quantify the external influences over time and describe how these influences affect the information adoption. We discover that the information tends to "jump" across the network, which can only be explained as an effect of an unobservable external influence on the network. We find that only about 71% of the information volume in Twitter can be attributed to network diffusion, and the remaining 29% is due to external events and factors outside the network.
연구 동기 및 목표
- 트위터에서 내부 네트워크 확산과 미디어와 같은 외부 네트워크 외부 원천을 통해 정보가 어떻게 발생하는지 이해하기 위해.
- 기존의 확산 모델에서 내부 및 외부 영향이 구분되지 않는 혼동 효과를 해결하기 위해.
- 내부 네트워크 확산과 외부 영향이 정보 수용에 기여하는 정도를 분리하고 정량화하는 모델을 개발하기 위해.
- 실제 트위터 데이터를 활용해 노출 반응 곡선의 형태와 외부 원천의 시간적 활동을 추론하기 위해.
제안 방법
- 노드의 감염(URI 언급)이 이웃을 통한 내부 영향과 관측되지 않은 원천을 통한 외부 영향의 조합으로 발생하는 생성 모델을 제안한다.
- 누적된 내부 노출과 시간에 따른 외부 활동에 의존하는 위험 함수를 사용해 감염 확률을 모델링한다.
- 내부 원천으로부터의 노출 수에 따라 감염 확률이 어떻게 변화하는지를 캡처하는 노출 곡선 η(x)를 도입한다.
- 외부 활동 λ_ext(t), 노출 곡선 η(x), 내부 확산 파rameters를 동시에 추정하기 위해 효율적인 추론 알고리즘을 사용한 최대우도 추정을 수행한다.
- 30억 개의 트윗을 포함한 완전한 한 달 간의 트레이스를 활용해 수천 개의 URL에 대해 외부 영향 역학을 추론한다.
- 비모수적 접근을 사용해 노출 곡선의 형태와 시간에 따라 변하는 외부 영향 강도를 추정한다.
실험 결과
연구 질문
- RQ1대중 미디어에서 비롯된 외부 영향이 내부 네트워크 확산을 초월해 트위터에서 URL이 등장하는 데 얼마나 기여하는가?
- RQ2사회적 네트워크 영향과 외부 미디어 노출에 의한 정보 수용을 어떻게 구분할 수 있는가?
- RQ3외부 영향의 시간적 패턴은 어떠한가? 그리고 이는 시간이 지남에 따라 내부 네트워크 확산과 어떻게 상호작용하는가?
- RQ4네트워크 이웃으로부터 반복적인 노출을 받을수록 URL 수용 확률은 어떻게 변화하는가?
- RQ5트위터에서 정보가 퍼지는 과정에서 외부 원천과 내부 네트워크 확산에 의해 기인하는 비율은 각각 얼마인가?
주요 결과
- 트위터에서 URL 언급의 71%는 내부 네트워크 확산에서 기인하며, 나머지 29%는 미디어 노출과 같은 외부 영향에서 기인한다.
- 노출 곡선 η(x)의 모드 ρ₁ ≈ 0.0005로, 사용자가 매우 선택적임을 나타내며, 몇 차례의 노출 이후에야 URL을 수용함을 시사한다.
- 노출 곡선의 최고점(ρ₂)은 대부분 1에 위치해 있어, 사용자가 일반적으로 한두 번의 내부 노출 후에 URL을 수용함을 나타낸다.
- 초기 감염은 주로 외부 영향에 의해 주도되지만, 확산이 진행됨에 따라 내부 영향이 지배적이며, 노출 곡선에서 내부 기반 감염의 급증이 관측된다.
- 낮은 노출 수준에서 집중적으로 감염이 발생하는 클러스터가 존재하며, 이는 거의 전적으로 내부 확산에 기인함을 시사하여 초기 단계의 네트워크 확산을 반영한다.
- 모델은 정보 발생의 역학을 성공적으로 캡처하였으며, 이는 연결된 이전 감염이 없는 '점프' 현상(감염)이 관측되지 않은 외부 영향에 의해 가장 잘 설명됨을 드러낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.