QUICK REVIEW

[논문 리뷰] Discovering Emerging Topics in Social Streams via Link Anomaly Detection

Toshimitsu Takahashi, Ryota Tomioka|arXiv (Cornell University)|2011. 10. 13.

Complex Network Analysis Techniques참고 문헌 14인용 수 29

한 줄 요약

이 논문은 사용자 언급 행동을 확률적 과정으로 모델링하여 소셜 미디어 스트림에서 발생하는 주요 주제를 식별하는 링크 이상 탐지 프레임워크를 제안한다. 이후 SDNML과 클라인버그의 버스트 모델을 사용해 언급 패턴의 이상을 탐지한다. 이 방법은 키워드 빈도 기반 접근 방식보다 주제를 더 이르게 탐지하며, 특히 키워드가 모호하거나 명확하지 않을 경우에 유용하다. 실제 트위터 데이터 세트를 바탕으로 검증되었다.

ABSTRACT

Detection of emerging topics are now receiving renewed interest motivated by the rapid growth of social networks. Conventional term-frequency-based approaches may not be appropriate in this context, because the information exchanged are not only texts but also images, URLs, and videos. We focus on the social aspects of theses networks. That is, the links between users that are generated dynamically intentionally or unintentionally through replies, mentions, and retweets. We propose a probability model of the mentioning behaviour of a social network user, and propose to detect the emergence of a new topic from the anomaly measured through the model. We combine the proposed mention anomaly score with a recently proposed change-point detection technique based on the Sequentially Discounting Normalized Maximum Likelihood (SDNML), or with Kleinberg's burst model. Aggregating anomaly scores from hundreds of users, we show that we can detect emerging topics only based on the reply/mention relationships in social network posts. We demonstrate our technique in a number of real data sets we gathered from Twitter. The experiments show that the proposed mention-anomaly-based approaches can detect new topics at least as early as the conventional term-frequency-based approach, and sometimes much earlier when the keyword is ill-defined.

연구 동기 및 목표

내용이 종종 비텍스트적(예: 이미지, URL, 비디오)일 수 있는 소셜 미디어에서 단어 빈도 기반 주제 탐지의 한계를 해결한다.
텍스트 기반 주제 탐지에서 내재된 키워드의 모호성과 사전 처리 과제를 해결하기 위해 사회적 네트워크 구조를 활용한다.
사용자 언급 행동을 확률적 이상 탐지 문제로 모델링하여 기존 방법보다 더 이르게 주제가 발생하는 것을 탐지한다.
메시지 콘텐츠 유형에 관계없이 작동하는 확장성 있고 콘텐츠 무관한 방법을 개발한다. 이는 오직 언급(링크) 패턴에 의존한다.

제안 방법

각 게시물당 언급 수와 언급 대상 사용자 빈도를 모두 반영하는 사용자 언급 행동의 확률 모델을 제안한다.
제안된 확률 모델을 기반으로 사용자 정상적인 언급 행동에서의 이탈을 기반으로 각 사용자에 대한 언급 이상 점수를 계산한다.
수백 명의 사용자에 걸친 이상 점수를 집계하여 집합적 언급 행동의 시계열을 형성한다.
순차적으로 할인된 정규화 최대 가능도(SDNML) 코딩을 적용하여 집계된 이상 시계열의 변화점(Change-point)을 탐지한다.
이상 점수와 클라인버그의 버스트 탐지 모델을 조합하여 주제 발생을 나타내는 버스트 패턴을 식별한다.
유의수준 ρ에 기반한 동적 최적화 임계값을 사용하여 변화점 탐지의 임의의 경고를 제어한다.

실험 결과

연구 질문

RQ1텍스트 콘텐츠나 사전 정의된 키워드에 의존하지 않고 소셜 미디어의 언급 패턴을 활용해 주요 주제를 탐지할 수 있는가?
RQ2키워드가 모호할 경우, 링크 이상 기반 탐지 방식이 키워드 빈도 기반 방법에 비해 탐지 지연 시간에서 어떤가?
RQ3키워드가 초도에 명확하게 정의되지 않을 경우, 제안된 방법이 기존 방법보다 주제 발생을 더 이르게 탐지할 수 있는가?
RQ4이상 점수와 변화점 탐지의 조합이 주제 탐지 정확도와 신속성에 얼마나 기여하는가?

주요 결과

제안된 링크 이상 기반 방법은 실제 트위터 데이터 세트 4개 모두에서 키워드 빈도 기반 방법과 동일하거나 더 이르게 주요 주제를 탐지했다.
'NASA' 데이터 세트의 경우, 공식 발표 이전에 '아연'이라는 단어가 낮은 빈도로 언급된 것을 포착했음에도 불구하고, 키워드 기반 방법보다 주제를 더 이르게 탐지했다.
'BBC' 데이터 세트에서는 링크 이상 방법이 첫 번째 버스트(다양한 용어를 사용한 초기 반응)를 탐지한 반면, 키워드 기반 방법은 두 번째 버스트(통일된 키워드 사용)만 탐지했다.
ρ = 0.05일 때, 'NASA' 데이터 세트에 대해 14건의 경고가 발생했으며, 이 중 대부분이 새로운 주제와 관련이 있었고, 민감성에도 불구하고 낮은 임의의 경고 비율을 보였다.
모호하거나 변화하는 키워드를 가진 주제 탐지에서 키워드 기반 접근 방식을 능가했으며, 실제 소음이 많은 소셜 미디어 환경에서의 강건성을 입증했다.
이 프레임워크는 콘텐츠에 무관하며, 오직 언급 링크에 의존하기 때문에 이미지, 비디오 등의 비텍스트 콘텐츠에도 적용 가능하므로 광범위하게 활용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.