Skip to main content
QUICK REVIEW

[논문 리뷰] A Study of WhatsApp Usage Patterns and Prediction Models without Message Content

Avi Rosenfeld, Sigal Sina|arXiv (Cornell University)|2018. 02. 09.
Impact of Technology on Adolescents참고 문헌 18인용 수 39
한 줄 요약

이 연구는 메시지 내용에 접근하지 않고 메타데이터—예를 들어 메시지 길이, 시간, 그룹 규모—만을 사용하여 WhatsApp 사용 패턴을 분석하여 높은 정확도로 사용자의 성별과 연령을 예측했다. Weka의 의사결정트리 및 베이지안 네트워크 알고리즘을 사용해 111명의 사용자로부터 확보한 600만 건의 메시지 데이터를 바탕으로 분석한 결과, 연령 및 성별에 따라 소통 행동에 뚜렷한 인구통계적 차이가 있음을 밝혀냈다. 특히 젊은 사용자들은 더 자주, 더 짧은 메시지를 보내며, 여성은 가족 소통을 위해 WhatsApp를 더 많이 사용하는 것으로 나타났다.

ABSTRACT

Internet social networks have become a ubiquitous application allowing people to easily share text, pictures, and audio and video files. Popular networks include WhatsApp, Facebook, Reddit and LinkedIn. We present an extensive study of the usage of the WhatsApp social network, an Internet messaging application that is quickly replacing SMS messaging. In order to better understand people's use of the network, we provide an analysis of over 6 million messages from over 100 users, with the objective of building demographic prediction models using activity data. We performed extensive statistical and numerical analysis of the data and found significant differences in WhatsApp usage across people of different genders and ages. We also inputted the data into the Weka data mining package and studied models created from decision tree and Bayesian network algorithms. We found that different genders and age demographics had significantly different usage habits in almost all message and group attributes. We also noted differences in users' group behavior and created prediction models, including the likelihood a given group would have relatively more file attachments, if a group would contain a larger number of participants, a higher frequency of activity, quicker response times and shorter messages. We were successful in quantifying and predicting a user's gender and age demographic. Similarly, we were able to predict different types of group usage. All models were built without analyzing message content. We present a detailed discussion about the specific attributes that were contained in all predictive models and suggest possible applications based on these results.

연구 동기 및 목표

  • 메시지 내용에 접근하지 않고도 사용자 프라이버시를 보존하면서 WhatsApp 사용 패턴을 분석하는 것.
  • 성별 및 연령 그룹 간 메시징 행동에 통계적으로 유의미한 차이가 있는지 규명하는 것.
  • 메타데이터만을 사용하여 사용자 인구통계 및 그룹 소통 특성에 대한 예측 모델을 개발하는 것.
  • 메시지 수준의 메타데이터에 기반한 기계학습이 내용 분석 없이도 정확한 인구통계 예측을 가능하게 할 수 있음을 입증하는 것.
  • 인구통계학자 및 공공정책 입안자에게 적용 가능한 프라이버시 보존형 사용자 행동 모델링에 통찰을 제공하는 것.

제안 방법

  • 18세에서 34세 사이의 111명의 사용자로부터 600만 건 이상의 WhatsApp 메시지를 수집하여 메시지 길이, 타임스탬프, 그룹 규모, 메시지 간 간격 등의 메타데이터에 중점을 두었다.
  • 성별 및 연령 그룹 간 사용 패턴의 차이를 탐지하기 위해 광범위한 통계적 및 수치적 분석을 수행했다.
  • 메시지 및 그룹 수준의 특성에 대해 Weka 데이터 마이닝 플랫폼을 사용해 의사결정트리 및 베이지안 네트워크 모델을 훈련시켰다.
  • 의사결정트리의 출력을 활용해 성별 및 연령 예측에 핵심적인 예측 변수와 논리적 임계값을 규명했다.
  • 파일 첨부 빈도, 메시지 길이, 응답 속도, 그룹 규모 등의 그룹 수준 특성을 예측하기 위한 모델을 구축했다.
  • 교차검증을 통해 모델 성능을 검증하고 의사결정트리에서 규칙 추출을 통해 특성 중요도를 평가했다.

실험 결과

연구 질문

  • RQ1메시지 내용 분석 없이도 WhatsApp 메시지 메타데이터만으로 성별 및 연령 등의 사용자 인구통계를 정확하게 예측할 수 있는가?
  • RQ2남성 및 여성 사용자 간 메시지 및 그룹 특성에 따른 WhatsApp 사용 패턴의 유의미한 차이는 무엇인가?
  • RQ3연령 및 교육 수준은 메시지 빈도, 파일 첨부 사용, 메시지 길이와 어떻게 관련이 있는가?
  • RQ4메시지 및 그룹 수준의 메타데이터 중 어떤 특성이 높은 활동성 또는 짧은 메시지 그룹 특성과 가장 강하게 관련되어 있는가?
  • RQ5메타데이터만으로 훈련된 기계학습 모델은 WhatsApp에서 다양한 인구통계 및 행동 프로파일을 효과적으로 구분할 수 있는가?

주요 결과

  • 여성은 남성보다 WhatsApp를 훨씬 더 자주 사용하며, 전체적으로는 메시지를 더 적게 보내지만 가족 소통을 위해 더 높은 사용 빈도를 보인다.
  • 30세 미만의 젊은 사용자들은 더 자주 메시지를 보내며 앱을 더 집중적으로 사용하는 반면, 30세 이상의 어른들은 더 긴 메시지를 덜 자주 보내는 경향이 있다.
  • 16년 이상의 높은 교육 수준을 가진 사용자들과 30세 이상의 사용자들은 전체 사용 빈도가 낮더라도 파일 첨부를 더 자주 보내는 경향이 있다.
  • 5인 이상의 큰 그룹은 1:1 대화에 비해 더 높은 메시지 빈도, 더 짧은 메시지 길이, 더 빠른 응답 속도를 보인다.
  • 의사결정트리 모델은 메시지 길이 < 20자 및 메시지 간 간격 < 30초와 같은 핵심 임계값을 식별하여 성별 및 연령 예측에 강력한 예측 요소로 활용했다.
  • 메시지 내용에 대한 접근 없이도 높은 정확도로 인구통계 및 그룹 행동 패턴을 예측하는 데 성공하여, 메타데이터 중심 분석의 강력함을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.