Skip to main content
QUICK REVIEW

[論文レビュー] L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and BERT Language Models

Ravindra Nayak, Raviraj Joshi|arXiv (Cornell University)|Apr 18, 2022
Natural Language Processing Techniques被引用数 21
ひとこと要約

この論文はL3Cube-HingCorpusを提案し、大規模な実デ Hindi-English code-mixed コーパスと HingBERT ファミリーモデルを紹介。GLUECoSタスクでの改善を示し、 HingLID と HingGPT リソースも公開。

ABSTRACT

Code-switching occurs when more than one language is mixed in a given sentence or a conversation. This phenomenon is more prominent on social media platforms and its adoption is increasing over time. Therefore code-mixed NLP has been extensively studied in the literature. As pre-trained transformer-based architectures are gaining popularity, we observe that real code-mixing data are scarce to pre-train large language models. We present L3Cube-HingCorpus, the first large-scale real Hindi-English code mixed data in a Roman script. It consists of 52.93M sentences and 1.04B tokens, scraped from Twitter. We further present HingBERT, HingMBERT, HingRoBERTa, and HingGPT. The BERT models have been pre-trained on codemixed HingCorpus using masked language modelling objectives. We show the effectiveness of these BERT models on the subsequent downstream tasks like code-mixed sentiment analysis, POS tagging, NER, and LID from the GLUECoS benchmark. The HingGPT is a GPT2 based generative transformer model capable of generating full tweets. We also release L3Cube-HingLID Corpus, the largest code-mixed Hindi-English language identification(LID) dataset and HingBERT-LID, a production-quality LID model to facilitate capturing of more code-mixed data using the process outlined in this work. The dataset and models are available at https://github.com/l3cube-pune/code-mixed-nlp .

研究の動機と目的

  • ローマ字表記での実際のヒンディー語-英語コード混在データの希少性を解消するため、巨大なリアルコード混合コーパスを動機づけ、構築する。
  • HingCorpus 上で BERT 系モデルを事前学習し、コード混合 NLP のための HingBERT, HingMBERT, HingRoBERTa を作成する。
  • GLUECoS ベンチマークの下流タスク(LID、POS tagging、NER、Sentiment)でモデルを評価する。
  • HingLID、 HingGPT、 HingFT などの付随リソースを公開して、ヒンディー語-英語のコード混合NLP研究を支援する。

提案手法

  • ヒンディー語-英語のターゲット語彙を用いて Twitter データをスクレープし、Roman script で HingCorpus を構築する。
  • 語レベルの LID モデルで語をフィルタリング・分類し、少なくとも 2 語のヒンディー語と 2 語の英語を含む文を保持する。
  • HingCorpus 上で BERT のバリアント(BERT-base, m-BERT, XLM-RoBERTa)を MLM(15% マスキング)で2エポック事前学習し、 HingBERT, HingMBERT, HingRoBERTa を作成する。
  • 事前学習モデルを GLUECoS の下流タスクでファインチューニングする;分類タスクには [CLS] 埋め込みとフィードフォワードヘッドを使用する。
  • ローマン・スクリプト版と混合スクリプト版(Roman+Devanagari)のモデルを作成し、混合スクリプト Devanagari タスクで評価する。

実験結果

リサーチクエスチョン

  • RQ1大規模なリアルな Hinglish コーパスは、モノリンガルまたは合成データで訓練されたモデルと比較してコード混在言語理解を改善できるか?
  • RQ2 HingBERT-ファミリーモデルは、コード混在 LID、POS、NER、感情分析タスクでベースライン BERT 変種を上回るか?
  • RQ3 混合スクリプト訓練(Roman+Devanagari)の下流のコード混在タスクへの影響は?
  • RQ4 公開リソース(LID コーパス、 HingBERT-LID、 HingGPT)が Hinglish NLP 研究を拡張するのにどれだけ効果的か?

主な発見

ModelLIDPOS-UDPOS-FGNERSentimentHingLID
BERT78.6983.7070.7579.2759.1696.04
m-BERT82.5683.6869.5876.6458.4295.59
XLMRoBERTa85.9387.2470.9577.0161.5795.42
HingBERT84.4488.4271.0481.8063.7296.21
HingMBERT84.9089.4771.5580.0963.5196.27
HingRoBERTa86.6990.1771.6981.1366.4396.15
HingMBERT-mixed83.2690.0670.3481.1263.5196.29
HingRoBERTa-mixed86.1389.8770.7380.6866.7395.96
  • HingBERT-family models achieve higher F1 and accuracy on code-mixed tasks than baseline BERT variants in Roman script.
  • XLM-RoBERTa-based HingRoBERTa generally performs best among the HingBERT variants on most roman-script tasks, achieving SOTA-like results on several metrics.
  • Mixed-script HingBERT-mixed and HingRoBERTa-mixed improve performance on mixed-script Devanagari+Roman tasks, though not universally across all tasks.
  • The roman-script models outperform their mixed-script counterparts on pure roman-script tasks, while mixed-script models excel on mixed-script evaluation.
  • HingBERT-LID achieves 98.77 on HingLID test set (public release) and HingLID-based models enable expansive Hinglish data augmentation.
  • HingGPT provides a GPT-2 based generator trained on HingCorpus capable of producing full tweets, supporting synthetic code-mixed data generation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。