QUICK REVIEW

[논문 리뷰] Transfer Learning from LDA to BiLSTM-CNN for Offensive Language Detection in Twitter

Gregor Wiedemann, Eugen Ruppert|arXiv (Cornell University)|2018. 11. 07.

Hate Speech and Cyberbullying Detection참고 문헌 14인용 수 33

한 줄 요약

이 논문은 독일어 트위터 데이터에서 폭력적 언어 탐지에 대해 BiLSTM-CNN 모델을 제안하며, LDA를 통해 유도된 비지도 주제 클러스터로부터 전이 학습을 활용하여 성능을 향상시킨다. 주제 기반 전이 학습과 테마 기반 사용자 클러스터 정보를 조합한 것이 가장 뛰어난 성능을 보였으며, 이는 치명적인 잊음 현상을 크게 줄이고 거시적 과제에서 F1 스코어를 73.67%로 끌어올렸다.

ABSTRACT

We investigate different strategies for automatic offensive language classification on German Twitter data. For this, we employ a sequentially combined BiLSTM-CNN neural network. Based on this model, three transfer learning tasks to improve the classification performance with background knowledge are tested. We compare 1. Supervised category transfer: social media data annotated with near-offensive language categories, 2. Weakly-supervised category transfer: tweets annotated with emojis they contain, 3. Unsupervised category transfer: tweets annotated with topic clusters obtained by Latent Dirichlet Allocation (LDA). Further, we investigate the effect of three different strategies to mitigate negative effects of 'catastrophic forgetting' during transfer learning. Our results indicate that transfer learning in general improves offensive language detection. Best results are achieved from pre-training our model on the unsupervised topic clustering of tweets in combination with thematic user cluster information.

연구 동기 및 목표

독일어 소셜 미디어 콘텐츠에 대한 효과적인 폭력적 언어 탐지 시스템의 부족을 해결하기 위해.
보조 작업에서의 전이 학습이 폭력적 언어 분류 성능에 영향을 주는지 조사하기 위해.
독일어 트위터 데이터에서 감독, 약한 감독, 비지도 전이 학습 전략을 평가하기 위해.
전이 학습 중 치명적인 잊음 현상을 줄이기 위해 계층별 미세조정 전략을 사용하기 위해.
사용자 언급 클러스터링이 분류 성능에 미치는 영향을 탐색하기 위해.

제안 방법

트위터 텍스트의 순차적이고 국소적인 특징을 포착하기 위해 BiLSTM-CNN 신경망 아키텍처를 사용한다.
모델을 세 가지 보조 작업에서 사전 훈련함으로써 전이 학습을 적용한다: 레이블이 부여된 근접 폭력적 카테고리, 이모티콘 주석, LDA를 통해 유도된 주제 클러스터.
1,000개의 주제 클러스터를 생성하기 위해 1,000만 건의 트위터 배경 코퍼스에 LDA를 적용하여 비지도 사전 훈련을 수행한다.
치명적인 잊음 현상을 완화하기 위한 세 가지 전략을 평가한다: 계층별 미세조정, 가중치 동결, 동시 훈련.
자주 타깃이 되는 사용자에 대한 테마 정보를 통합하기 위해 사용자 언급 클러스터링을 사용한다. 이는 아직 본 적이 없는 사용자에게도 적용 가능하다.
서브워드 임베딩을 사용하여 OOV(어휘 외 단어), 철자 오류, 이모티콘과 같은 비표준 언어를 처리한다.

실험 결과

연구 질문

RQ1LDA 기반 주제 클러스터에서의 전이 학습이 독일어 트위터 데이터에서 폭력적 언어 탐지 성능을 향상시키는가?
RQ2감독, 약한 감독, 비지도 전이 학습 전략이 분류 성능에 어떤 영향을 미치는가?
RQ3폭력적 언어 탐지 맥락에서 전이 학습 중 치명적인 잊음 현상을 가장 효과적으로 완화하는 전략은 무엇인가?
RQ4사용자 언급 클러스터링이 분류 성능에 미치는 영향은 무엇이며, 특히 아직 본 적이 없는 사용자에 대해서는 어떻게 작용하는가?
RQ5도메인 내 데이터에서 비지도 사전 훈련이 감독 또는 약한 감독 기반 대안을 능가하는가?

주요 결과

LDA 주제 클러스터에서 유도된 비지도 전이 학습 접근 방식이 거시적 과제에서 가장 높은 F1 스코어 73.67%를 기록했다.
주제 클러스터에서의 사전 훈련과 테마 기반 사용자 클러스터 정보를 조합한 결과가 가장 뛰어난 성능을 보였으며, F1 스코어 73.67%와 정확도 53.25%를 기록했다.
계층별 미세조정 전략(하나씩 아래에서 위로 훈련)이 다른 치명적인 잊음 현상 완화 기법들보다 뚜렷이 뛰어나, 동시 훈련 및 가중치 동결 대비 성능을 향상시켰다.
거시적 과제에서 정확도가 77.5%였고, 세분화된 네 카테고리 분류 과제에서는 73.7%였으며, 이는 더 넓은 폭력적 언어 탐지 과제에서 더 우수한 일반화 성능을 의미한다.
거짓 양성은 주로 비폭력적 비난이나 비판적 질문에 기인한 경우가 많았고, 거짓 음성은 암시적 인격 무시 언어나 간접적인 암시를 포함한 경우가 많았다.
결과적으로 LDA를 통한 비지도, 작업에 종속되지 않는 사전 훈련이 도메인 내 데이터에서 매우 효과적이며, 폭력적 언어 탐지 외의 다른 NLP 과제도에 대해 전이 가능하다는 점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.