[논문 리뷰] #greysanatomy vs. #yankees: Demographics and Hashtag Use on Twitter
이 연구는 뉴욕 거주 346,050명의 사용자에 대해 트위터 프로필 이미지의 얼굴 분석을 통해 성별, 연령, 인종을 추론하고, 12개월 간의 해시태그 사용 패턴을 인구 집단 간에 분석한다. 그 결과, #blacklivesmatter와 같은 특정 해시태그가 아프리카계 미국인들 사이에서는 매우 두드러지게 사용되는 등 집단별로 뚜렷한 해시태그 패턴이 드러나며, 이는 인구 수준의 추세 분석이 온라인 행동에서 중요한 인구통계적 세부 정보를 누락시킬 수 있음을 보여준다.
Demographics, in particular, gender, age, and race, are a key predictor of human behavior. Despite the significant effect that demographics plays, most scientific studies using online social media do not consider this factor, mainly due to the lack of such information. In this work, we use state-of-the-art face analysis software to infer gender, age, and race from profile images of 350K Twitter users from New York. For the period from November 1, 2014 to October 31, 2015, we study which hashtags are used by different demographic groups. Though we find considerable overlap for the most popular hashtags, there are also many group-specific hashtags.
연구 동기 및 목표
- 사회 미디어 연구에서 인구통계적 고려가 부족한 점을 보완하고, 다양한 인구집단(성별, 연령, 인종)이 트위터에서 해시태그를 어떻게 사용하는지 조사하는 것.
- 사회 미디어에서 인구통계 데이터의 부족을 해결하기 위해 최신 기술의 얼굴 분석 소프트웨어를 활용해 프로필 이미지에서 성별, 연령, 인종을 추론하는 것.
- 특정 인구집단에 의해 고유하거나 비율적으로 더 많이 사용되는 해시태그가 있는지 확인하고, 숨겨진 행동 패턴을 드러내는 것.
- 특정 인구집단의 해시태그 사용 패턴이 인구 전체 수준의 추세 분석에서 가려질 수 있음을 입증하는 것, 특히 소수자 집단에서 두드러진다.
- 프로필 이미지에서의 인구통계 추론이 대규모로 가능하고 유의미하다는 것을 보여주며, 더 포괄적인 사회 미디어 연구를 촉구하는 것.
제안 방법
- FollowerWonk의 'biography 검색' 기능을 활용해 뉴욕 지역 기반으로 230만 명의 트위터 사용자를 수집.
- 활동적이고 장기적인 사용자(10건 이상의 트윗, 3개월 이상 가입, 최근 3개월 이내 활동 기록)로 필터링하여 총 767,300명을 확보.
- 검출 가능한 얼굴이 있는 346,050명의 사용자에 대해 최신 기술의 얼굴 분석 소프트웨어를 적용하여 성별, 연령, 인종을 추론.
- 2014년 11월부터 2015년 10월까지 이들 사용자로부터 1억 5,600만 건의 트윗을 수집 및 분석.
- 카이제곱 검정과 피어슨 상관계수(Phi) 통계를 사용해 특정 인구집단에 대해 뚜렷이 구분되는 해시태그를 식별.
- Phi 점수 기반으로 해시태그의 구분 능력( discriminatory power )을 순위 매기고, 연령+성별+인종 등 복합 인구집단 카테고리 간 사용 패턴을 비교.
실험 결과
연구 질문
- RQ1트위터에서 성별, 연령, 인종에 따라 해시태그 사용 방식은 어떻게 다를까?
- RQ2가장 인기 있는 해시태그들이 인구집단 간에 얼마나 겹치며, 어디서 갈라지는가?
- RQ3어떤 해시태그가 특정 인구집단에 고유하거나 비율적으로 더 많이 사용되는가? 이를 어떻게 식별할 수 있는가?
- RQ4해시태그 사용 빈도가 연령이나 인종과 같은 인구통계적 요인에 따라 체계적으로 달라지는가?
- RQ5인구 전체 수준의 해시태그 분석이 소수자 집단을 포함한 특정 집단의 행동을 얼마나 가려내는가?
주요 결과
- 상위 20개 해시태그는 인구집단 간에 상당한 겹침을 보이며, #nyc는 모든 집단에서 가장 널리 사용된 해시태그였다.
- 전반적인 유사성에도 불구하고 집단별로 뚜렷한 해시태그 패tern이 나타났다: 아프리카계 미국인들 사이에서 #blacklivesmatter는 4위였지만, 백인들 사이에선 19위에 머물러 있어 인종 간의 뚜렷한 차이를 보였다.
- Phi 점수가 높아서 #asianamerican은 아시아계 사용자에게, #growingupblack는 아프리카계 미국인 사용자에게 가장 구분 능력이 높은 해시태그로 나타났다.
- 45세에서 54세 이상의 연령대 사용자들은 28.9%의 해시태그 사용률을 보였고, 17세 이하 사용자(18.8%)보다 높아, 트위터를 정보 전달이나 자기 기록용으로 더 활발히 활용하는 것으로 나타났다.
- 해시태그 트윗 비율이 가장 높은(39.5%) 집단은 고령, 블랙, 여성 사용자로, 강한 상호작용 패턴이 드러났다.
- 집단 규모와 해시태그 사용 빈도 사이에 통계적으로 유의미한 상관관계가 없었으며, 이는 소수자 집단이 여전히 독특하고 의미 있는 온라인 행동을 보일 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.