Skip to main content
QUICK REVIEW

[논문 리뷰] RoBERTuito: a pre-trained language model for social media text in Spanish

Juan Manuel Sánchez Pérez, Damián A. Furman|arXiv (Cornell University)|2021. 11. 17.
Natural Language Processing Techniques인용 수 33
한 줄 요약

RoBERTuito는 500M 스페인어 트윗으로 학습된 RoBERTa 기반 모델로, 스페인어 소셜 미디어 NLP 작업을 개선하고 다국어 전이 및 코드-스위칭 능력을 유지하며 HuggingFace에서 공개되었습니다.

ABSTRACT

Since BERT appeared, Transformer language models and transfer learning have become state-of-the-art for Natural Language Understanding tasks. Recently, some works geared towards pre-training specially-crafted models for particular domains, such as scientific papers, medical documents, user-generated texts, among others. These domain-specific models have been shown to improve performance significantly in most tasks. However, for languages other than English such models are not widely available. In this work, we present RoBERTuito, a pre-trained language model for user-generated text in Spanish, trained on over 500 million tweets. Experiments on a benchmark of tasks involving user-generated text showed that RoBERTuito outperformed other pre-trained language models in Spanish. In addition to this, our model achieves top results for some English-Spanish tasks of the Linguistic Code-Switching Evaluation benchmark (LinCE) and has also competitive performance against monolingual models in English tasks. To facilitate further research, we make RoBERTuito publicly available at the HuggingFace model hub together with the dataset used to pre-train it.

연구 동기 및 목표

  • 스페인어 소셜 미디어 텍스트를 위한 도메인 특화 사전 학습 모델의 필요성을 제시한다.
  • 대규모 스페인어 트윗 언어 모델(RoBERTuito) 및 그 변형을 개발하고 공개한다.
  • RoBERTuito를 스페인어 소셜 미디어 분류 작업과 코드 스위칭 벤치마크에서 평가한다.
  • 복제 및 스페인어 NLP 연구를 위한 투명한 데이터와 모델을 제공한다.

제안 방법

  • 약 500M 스페인어 트윗(cased, uncased, deaccented 변형)으로 RoBERTa-base 아키텍처를 학습한다.
  • 정규화 전략 및 SentencePiece(tokenization, vocab size 30k)을 통해 트윗을 전처리한다.
  • 문장 및 토큰 라벨링에 표준 분류 헤드를 사용하여 스페인어, 영어, 스페인어-영어 코드 스위칭 태스크에 모델을 미세 조정한다.
  • 태스크 A: 증오(Hate), 태스크 B: 감정(Sentiment), 정서(Emotion), 아이러니(Irony); 태스크 LinCE의 코드 스위칭 태스크; SemEval2017의 영어 태스크에 대해 스페인어 기반 베이스라인(BETO, RoBERTa-BNE, BERTin) 및 다국어 모델과 벤치마크한다.
  • 입력 대소문자 및 악센트의 영향 분석하고 다국어 모델과의 코드 스위칭 성능을 평가한다.

실험 결과

연구 질문

  • RQ1RoBERTuito가 스페인어 소셜 미디어 분류 태스크에서 일반 도메인 사전 학습 모델을 능가하는가?
  • RQ2대/소문자 구분 여부(cased, uncased) 및 악센트 제거(deaccented)가 스페인어 소셜 미디오 태스크에 어떤 영향을 미치는가?
  • RQ3RoBERTuito의 코드 스위칭(Spanish-English) 태스크 성능이 다국어 모델과 비교하여 어떤가?
  • RQ4RoBERTuito는 monolingual English 모델에 비해 영어 트윗 태스크에서 어떠한 성능을 보이는가?
  • RQ5LinCE와 같은 Spanish-English 코드 스위칭 벤치마크에서 RoBERTuito가 효과적인가?

주요 결과

  • RoBERTuito uncased는 스페인어 혐오 발언에서 최고 성능 80.1과 감정에서 70.7을 달성하고 전체 점수 69.9로 BETO 및 RoBERTa-BNE를 능가했다.
  • Deaccented RoBERTuito는 혐오 79.8, 감정 70.2, 정서 54.3, 아이러니 74.0, 점수 69.6으로 uncased와의 차이가 근소하다.
  • Cased RoBERTuito도 강력하지만 여러 스페인어 태스크에서 uncased/deaccented에 비해 다소 뒤처지며(혐오 79.0, 감정 70.1, 정서 51.9, 아이러니 71.9, 점수 68.2).
  • 영어 태스크에서 RoBERTuito는 일반적으로 mBERT 및 XLM-R BASE를 감정, 정서, 혐오 발언에서 능가하는 경향이 있으며, 일부 태스크에서 BERTweet이 여전히 선두를 달리기도 한다(예: 감정 70.3).
  • LinCE 코드 스위칭 벤치마크(Spanish-English)에서 RoBERTuito의 개발 결과(감정 53.2, NER 67.2, POS 97.0, uncased 기준)는 다국어 베이스라인과 경쟁력이 있으며, 공식 LinCE 리더보드에서 RoBERTuito는 감정 60.6에서 1위를, NER/POS(68.5, 97.2)에서 2위를 차지한다.
  • RoBERTuito 모델은 XLM-R LARGE보다 파라미터 효율이 높고(108M) 스페인어 태스크에서 어휘 효율성이 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.