[논문 리뷰] Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on Synthetically Generated Code-Mixed Data for Hate Speech Detection
이 논문은 마르코프 체인 기반의 데이터 생성 방법을 사용하여 합성적으로 생성된 타밀-영어 및 말라요람-영어 혼합 코드화된 텍스트에 ULMFiT 모델을 사전 훈련시켜 드라비디아어 코드 혼합 소셜 미디어 텍스트에서 혐오 발언 탐지 성능을 향상시키는 것을 제안한다. 이 방법은 라틴 문자 기반의 서브태스크 B에서 0.88의 가중 F1 스코어(2위), 혼합 문자 기반의 서브태스크 A에서 0.91의 F1 스코어(4위)를 기록하여 저자원 코드 혼합 NLP 작업에 합성 데이터의 효과를 입증한다.
This paper describes the system submitted to Dravidian-Codemix-HASOC2020: Hate Speech and Offensive Content Identification in Dravidian languages (Tamil-English and Malayalam-English). The task aims to identify offensive language in code-mixed dataset of comments/posts in Dravidian languages collected from social media. We participated in both Sub-task A, which aims to identify offensive content in mixed-script (mixture of Native and Roman script) and Sub-task B, which aims to identify offensive content in Roman script, for Dravidian languages. In order to address these tasks, we proposed pre-training ULMFiT on synthetically generated code-mixed data, generated by modelling code-mixed data generation as a Markov process using Markov chains. Our model achieved 0.88 weighted F1-score for code-mixed Tamil-English language in Sub-task B and got 2nd rank on the leader-board. Additionally, our model achieved 0.91 weighted F1-score (4th Rank) for mixed-script Malayalam-English in Sub-task A and 0.74 weighted F1-score (5th Rank) for code-mixed Malayalam-English language in Sub-task B.
연구 동기 및 목표
- 타밀-영어 및 말라요람-영어와 같은 드라비디아어 코드 혼합 언어에 대해 효과적인 혐오 발언 탐지 시스템의 부족을 해결하기 위해.
- 저자원 드라비디아어 코드 혼합 NLP 작업에서의 데이터 부족 문제를 해결하기 위해 합성 훈련 데이터를 생성하기 위해.
- 전이 학습을 활용하여 합성 코드 혼합 데이터 기반으로 ULMFiT를 사전 훈련함으로써 혐오 발언 탐지 성능을 향상시키기 위해.
- 저자원 언어 환경에서 마르코프 체인 기반의 합성 데이터 생성 방법이 코드 혼합에 얼마나 효과적인지 평가하기 위해.
제안 방법
- 자연어의 코드 혼합 행동을 시뮬레이션하기 위해 원천 문자, 번역된 문자, 이sov(이sov) 문자를 나타내는 상태로 구성된 3단계 마르코프 체인 모델을 설계하였다.
- 학습된 전이 확률을 사용하여 위키백과 기사 시퀀스를 기반으로 상태 전이를 샘플링함으로써 합성 코드 혼합 데이터를 생성하였다.
- fast.ai 구현을 사용하여 합성 코드 혼합 데이터에서부터 ULMFiT를 처음부터 사전 훈련하였으며, 후속 분류 작업을 위해 전이 학습을 활용하였다.
- 테스트 데이터의 철자 오류 및 이sov 오류를 처리하기 위해 SentencePiece(유니그램 알고리즘)를 사용한 서브워드 토크나이저를 적용하였다.
- 최적의 수렴을 위해 점진적 고정 해제와 학습률 스케줄링을 사용하여 모델을 미세조정하였다. BPTT=70으로 설정하였다.
- 하이퍼파라미터는 80:20 훈련-검증 분할을 통해 튜닝되었으며, 드롭아웃, 배치 크기, 학습률은 각 작업에 맞게 최적화되었다.
실험 결과
연구 질문
- RQ1마르코프 과정을 통한 합성 코드 혼합 데이터가 저자원 드라비디아어 코드 혼합 언어에서 혐오 발언 탐지용 언어 모델을 효과적으로 사전 훈련시키는 데에 적합한가?
- RQ2기존의 표준 미세조정 대비 합성 코드 혼합 데이터 기반으로 ULMFiT를 사전 훈련한 경우, 실제 세계의 코드 혼합 혐오 발언 데이터셋에서 F1 스코어 측면에서 성능이 어떻게 비교되는가?
- RQ3서브워드 토크나이저의 사용이 테스트 데이터에서 철자 오류 및 이sov 오류에 대한 강건성을 얼마나 향상시키는가?
- RQ4병렬로 제공된 원천, 이sov, 번역된 위키백과 문서 기반의 합성 데이터 생성 방법이 언어적으로 타당한 코드 혼합 문장을 생성하는가?
- RQ5합성적으로 사전 훈련된 ULMFiT 모델에서의 전이 학습이 드라비디아어 코드 혼합 혐오 발언 분류 작업에서 경쟁적인 성능을 달성할 수 있는가?
주요 결과
- 서브태스크 B(라틴 문자 기반의 코드 혼합 타밀-영어)에서 모델은 0.88의 가중 F1 스코어를 기록하여 대회에서 2위를 차지하였다.
- 서브태스크 A(혼합 문자 기반의 말라요람-영어)에서 모델은 0.91의 가중 F1 스코어를 기록하여 전체 순위에서 4위를 기록하였다.
- 라틴 문자 기반의 말라요람-영어 서브태스크 B에서 모델은 0.74의 가중 F1 스코어를 기록하여 랭킹에서 5위를 기록하였다.
- 사전 훈련된 ULMFiT 모델은 혼합 문자 기반 말라요람 데이터에서 검증 퍼플렉서티 41.22를 기록하여 강력한 언어 모델링 능력을 보였다.
- 합성 데이터 생성 방법이 타당한 코드 혼합 문장을 생성하여, 대규모 실세계 레이블이 부여된 코드 혼합 데이터가 없더라도 효과적인 사전 훈련을 가능하게 하였다.
- 서브워드 토크나이저의 사용이 테스트 세트에서의 철자 오류 및 이sov 오류에 대한 강건성을 향상시켜 일반화에 기여하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.