[논문 리뷰] Hate Speech Detection on Vietnamese Social Media Text using the Bidirectional-LSTM Model
이 논문은 베트남어 소셜미디어 텍스트를 Clean, Offensive, Hate speech의 세 가지 카테고리로 분류하기 위해 FastText 단어 임베딩을 사용하는 양방향 장기 단기 기억망(Bi-LSTM) 모델을 제안한다. 이 시스템은 VLSP 2019 공동 과제의 공개 테스트 세트에서 71.43%의 F1 스코어를 기록하여 SVM, 로지스틱 회귀, GRU와 같은 다른 모델들을 능가하며, 베트남어 혐오 발언 탐지에 대해 사전 학습된 임베딩을 활용한 Bi-LSTM의 효과성을 입증한다.
In this paper, we describe our system which participates in the shared task of Hate Speech Detection on Social Networks of VLSP 2019 evaluation campaign. We are provided with the pre-labeled dataset and an unlabeled dataset for social media comments or posts. Our mission is to pre-process and build machine learning models to classify comments/posts. In this report, we use Bidirectional Long Short-Term Memory to build the model that can predict labels for social media text according to Clean, Offensive, Hate. With this system, we achieve comparative results with 71.43% on the public standard test set of VLSP 2019.
연구 동기 및 목표
- 수동 모더레이션의 과제를 해결하기 위해 베트남어 소셜미디어 텍스트에서 혐오 발언을 자동으로 탐지할 수 있는 시스템을 개발하는 것.
- 저자원 언어인 베트남어와 같은 언어의 순차적 텍스트 데이터에 적합한 딥러닝 아키텍처를 활용하여 분류 정확도를 향상시키는 것.
- 동일한 데이터셋에서 SVM, 로지스틱 회귀, GRU, Bi-LSTM와 같은 다양한 모델을 평가하고 비교하여 가장 효과적인 접근 방식을 특정하는 것.
- 사전 처리, 단어 임베딩 선택(FastText 대비 baomoi.vn.model) 및 하이퍼파라미터 튜닝을 통해 모델 성능을 최적화하는 것.
- VLSP 2019에서의 베트남어 소셜 네트워크 혐오 발언 탐지 공동 과제에 경쟁력 있는 솔루션을 기여하는 것.
제안 방법
- 사전 처리는 텍스트를 소문자로 변환하고, URL, 멘션, 알파벳이 아닌 문자, 일부 불용어를 제거한 후 정수 시퀀스로 토크나이징하는 것으로 구성된다.
- 단어 임베딩은 베트남어 단어의 의미를 포괄하는 사전 학습된 FastText 및 baomoi.vn.model.txt 벡터의 형태로 사용된다.
- 핵심 모델은 양방향 장기 단기 기억망(Bi-LSTM) 네트워크로, 순서 데이터의 문맥적 의존성을 포착하기 위해 전진 및 역방향 방향으로 시퀀스를 처리한다.
- Bi-LSTM 모델은 고정 길이로 패딩된 시퀀스를 사용하여 카테고리형 교차 엔트로피 손실과 Adam 최적화를 통해 엔드 투 엔드로 훈련된다.
- 성능 평가는 훈련 및 공개/비공개 테스트 세트에서 F1 스코어, 정밀도, 재현도, 정확도를 사용하여 평가된다.
- 모델 비교는 SVM, 로지스틱 회귀, GRU, Bi-LSTM 등의 다양한 아키텍처를 대상으로 하며, 각 모델에 대해 하이퍼파라미터를 튜닝하여 수행된다.
실험 결과
연구 질문
- RQ1Bi-LSTM 모델은 베트남어 소셜미디어 텍스트를 Clean, Offensive, Hate speech의 세 클래스로 효과적으로 분류할 수 있는가?
- RQ2단어 임베딩 선택(FastText 대비 baomoi.vn.model.txt)이 Bi-LSTM 모델의 혐오 발언 탐지 성능에 어떤 영향을 미치는가?
- RQ3이 작업에서 전통적인 기계 학습 모델(SVM, 로지스틱 회귀)과 다른 딥러닝 모델(GRU)에 비해 Bi-LSTM 모델의 성능은 어떻게 비교되는가?
- RQ4왜 Bi-LSTM 모델은 공개 테스트 세트에서는 성능이 뛰어나지만, 비공개 테스트 세트에서는 성능이 떨어지는가? 이러한 괴리의 원인은 무엇일 수 있는가?
- RQ5저자원 언어이자 형태학적으로 풍부한 언어인 베트남어에 적합한 모델 일반화 성능 향상을 위해 가장 효과적인 사전 처리 단계는 무엇인가?
주요 결과
- FastText 단어 임베딩을 사용한 Bi-LSTM 모델은 공개 테스트 세트에서 가장 높은 F1 스코어 71.43%를 기록하여 모든 제출물 중 두 번째로 높은 순위를 기록했다.
- FastText 임베딩을 사용할 경우, 훈련 세트에서 모델은 95.67%의 정확도, 85.61%의 정밀도, 67.36%의 재현도, 73.84%의 F1 스코어를 기록했다.
- 로지스틱 회귀 모델은 공개 테스트 세트에서 단지 51.15%의 F1 스코어를 기록하여 이 작업에 대해 제한된 효과성을 보였다.
- GRU 모델은 공개 테스트 세트에서 65.01%의 F1 스코어를 기록하여 SVM(63.87%)를 능가했지만 Bi-LSTM 모델에 비해 성능이 열등했다.
- baomoi.vn.model.txt 임베딩을 사용한 Bi-LSTM 모델은 FastText에 비해 낮은 성능(53.62% F1 스코어)을 기록하여, 임베딩의 품질이 결과에 상당한 영향을 미친다는 점을 시사했다.
- 공개 테스트 세트에서는 뛰어난 성능을 기록했지만, 비공개 테스트 세트에서는 여섯 번째 순위에 머물러 있어, 공개 데이터에 대한 과적합 또는 도메인 분포의 변화가 원인일 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.