QUICK REVIEW

[논문 리뷰] Cyberbullying Identification Using Participant-Vocabulary Consistency

Elaheh Raisi, Bert Huang|arXiv (Cornell University)|2016. 06. 26.

Hate Speech and Cyberbullying Detection참고 문헌 16인용 수 39

한 줄 요약

이 논문은 사용자 행동과 언어적 지표 간 일관성을 최적화하여 사이버불링의 피해자, 가해자, 그리고 새로운 비하 표현을 동시에 탐지하는 약한 지도 학습 기반의 관계 모델인 Participant-Vocabulary Consistency(PVC)를 제안한다. 이 방법은 공존 관계와 동적 쿼리 확장 기반의 방법보다 정밀도와 재현율의 균형을 더 잘 유지하며, 트위터와 Ask.fm 데이터에서 새로운 불링어휘를 높은 정확도로 탐지한다.

ABSTRACT

With the rise of social media, people can now form relationships and communities easily regardless of location, race, ethnicity, or gender. However, the power of social media simultaneously enables harmful online behavior such as harassment and bullying. Cyberbullying is a serious social problem, making it an important topic in social network analysis. Machine learning methods can potentially help provide better understanding of this phenomenon, but they must address several key challenges: the rapidly changing vocabulary involved in cyber- bullying, the role of social network structure, and the scale of the data. In this study, we propose a model that simultaneously discovers instigators and victims of bullying as well as new bullying vocabulary by starting with a corpus of social interactions and a seed dictionary of bullying indicators. We formulate an objective function based on participant-vocabulary consistency. We evaluate this approach on Twitter and Ask.fm data sets and show that the proposed method can detect new bullying vocabulary as well as victims and bullies.

연구 동기 및 목표

높은 레이블링 비용, 일관되지 않은 레이블링, 빠르게 변화하는 비속어 표현 등 지도 학습 기반 사이버불링 탐지의 한계를 해결하기 위해.
고정밀도의 불링어휘 소스 집합만을 사용하여 약한 지도 학습 방식으로 가해자, 피해자, 그리고 새로운 불링어휘를 동시에 식별하기 위해.
사용자와 언어적 표현 간 일관된 패턴을 학습하여 사이버불링 언어의 동적 특성을 모델링하기 위해.
트위터와 Ask.fm에서의 실제 소셜미디어 데이터를 대상으로 평가하여, 보류된 불링어휘 복구 능력과 사용자 역할 탐지 성능을 중점적으로 분석하기 위해.

제안 방법

PVC 모델은 상호작용 전반에서 사용자 점수(가해자 또는 피해자 경향)와 단어 점수(불링 지표 경향) 간 일관성을 강제하는 목적 함수를 수립한다.
학습 과정을 초기화하기 위해 고도로 지표적인 불링어휘의 소규모 시드 사전을 사용하며, 이후 최적화를 통해 모든 사용자와 단어의 점수를 추론한다.
모델은 시드 데이터에 대한 불일치를 최소화하도록 파라미터를 최적화하여 사용자와 언어적 표현 간의 관계적 패턴을 학습한다.
이 방법은 이진 공존 기반 방법과 달리 실수값 점수를 단어와 사용자 모두에게 계산하여 정밀도와 재현율 간의 트레이드오프를 가능하게 한다.
관계적 삼중항(사용자1 → 메시지 → 사용자2)으로 상호작용를 모델링함으로써 사회적 네트워크 구조를 활용한다. 여기서 메시지 내용은 사용자 및 단어 점수에 영향을 준다.
평가에서는 전체 욕설 어휘 사전에서 보류된 불링어휘를 사용하며, ROC 곡선과 기준 단어 점수 대비 업그레이드 성능을 측정한다.

실험 결과

연구 질문

RQ1소규모 시드 집합의 불링어휘만을 사용하여 약한 지도 학습 기반 모델이 새로운 사이버불링 어휘, 가해자, 피해자를 동시에 탐지할 수 있는가?
RQ2PVC 모델은 시드 집합에 포함되지 않은 알려진 불링어휘를 공존 기반 및 동적 쿼리 확장 기반 방법과 비교해 얼마나 잘 복구하는가?
RQ3PVC 모델은 새로운 불링어휘 탐지에서 정밀도와 재현율의 균형을 얼마나 잘 달성하는가?
RQ4학습된 사용자 점수는 프로필 분석과 대화 패턴을 통해 실제 불링 행동과 상관관계가 있는가?
RQ5모델은 실제 소셜미디어 상호작용에서 인종차별적, 성차별적, 레즈비언·Lesbian·양성애자·Trans젠더 혐오 표현을 탐지할 수 있는가?

주요 결과

트위터에서 PVC 모델은 타겟 불링어휘의 평균 점수를 전체 단어 평균보다 1.5 표준편차 높게 기록하여, DQE(0.242의 업그레이드)와 공존 기반 방법(업그레이드 없음)을 크게 앞서는 성능을 보였다.
Ask.fm에서 PVC 모델은 타겟어휘에 대해 0.825 표준편차의 업그레이드를 기록했으며, DQE의 0.0099 업그레이드에 비해 타겟어휘와 비타겟어휘 간 강력한 분류 능력을 보였다.
PVC 모델은 DQE보다 더 높은 비율의 보류된 불링어휘를 복구하면서도 더 높은 정밀도를 유지하여 재현율과 정밀도의 균형이 뛰어난 성능을 보였다.
상위 1,000개의 높은 점수를 받은 단어들을 수동 점검한 결과, 인종차별적, 성차별적, 반레즈비언·Lesbian·양성애자·트랜스젠더 혐오 표현을 포함한 유효한 불링어휘가 확인되어, 모델이 새로운 공격적 언어를 탐지하는 데 성공했음을 확인했다.
트위터와 Ask.fm 데이터셋에서 높은 점수를 받은 사용자들은 공격적 언어의 빈번한 사용 등 불링 행동과 일치하는 행동 패턴을 보여, 모델의 사용자 역할 예측이 타당함을 입증했다.
Ask.fm에서의 분석을 통해 반복적인 비하 표현 사용과 적대적인 교류 패턴을 포함한 분위기가 뜨거운 대화도 탐지할 수 있었으며, 이는 모델의 실제 적용 가능성에 대한 지원을 제공했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.