[論文レビュー] Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research
要約: 本論文は Testimole-conversational を提示する。300億語規模のイタリア語の討論掲示板コーパス(1996–2024)で、Usenetとフォーラムから収集され、言語モデル化と社会言語学研究を目的としており、研究コミュニティに対して自由に公開されている。
We present "Testimole-conversational" a massive collection of discussion boards messages in the Italian language. The large size of the corpus, more than 30B word-tokens (1996-2024), renders it an ideal dataset for native Italian Large Language Models'pre-training. Furthermore, discussion boards' messages are a relevant resource for linguistic as well as sociological analysis. The corpus captures a rich variety of computer-mediated communication, offering insights into informal written Italian, discourse dynamics, and online social interaction in wide time span. Beyond its relevance for NLP applications such as language modelling, domain adaptation, and conversational analysis, it also support investigations of language variation and social phenomena in digital communication. The resource will be made freely available to the research community.
研究の動機と目的
- Usenetとディスカッションボードから大規模な時系列のイタリア語コンピュータ媒介コミュニケーションコーパスを作成する。
- 三十年間にわたる非公式な書き言葉のイタリア語についてデータ駆動の言語分析および社会言語学分析を可能にする。
- イタリア語言語モデルの事前学習およびドメイン適応に適したリソースを提供する。
- 時系列での正書法形態、談話ダイナミクス、オンラインにおける社会的相互作用の分析を支援する。
提案手法
- データソースにはイタリア語で書かれたUsenetニュースグループとオンラインフォーラムが含まれる。
- Webスクレイピングは2024年2月〜5月に実施され、1996年以前の投稿を収集した。
- 各投稿はメタデータとともに格納される:タイトル、匿名化された著者、スレッドID、進行中の投稿ID、タイムスタンプ、フォーラム/ニュースグループ、本文テキスト。
- LMトレーニングのためにサブワードトークナイザー(Tiktoken BPE cl100k_base)を用いて投稿をトークン化し、トークン数を推定する。
- 時系列の言語分析を可能にするため、投稿のタイムスタンプの時系列注釈を含める。
- プライバシー考慮のため、ユーザー名の匿名化を実施した。

実験結果
リサーチクエスチョン
- RQ1ディスカッションボードでの非公式イタリア語は約三十年間でどのように変化したか(語彙・文法の変化)?
- RQ2イタリアのUsenetとフォーラムの話題とジャンルの分布はどうか、時間とともにどのように変化するか?
- RQ3Testimole-conversational のサブセットはイタリア語の言語モデルの事前学習および社会言語学研究に適しているか?
- RQ4このコーパスをNLPおよび社会言語学分析に使用する際の制限とノイズ要因は何か?
主な発見
- コーパスはほぼ300億語のトークンを含み、フォーラムからは230億語、Usenetからは70億語。
- フォーラムの投稿は468,391,746件、19,280,745スレッド(スレッドあたり平均18.5投稿)。 Usenetは89,499,446件、14,521,548スレッド(スレッドあたり平均6投稿)。
- サブワードトークン化後のトークン数はフォーラムで620億、Usenetで200億。
- トピックの上位には政治が含まれ(Usenetのおおよそ6%、フォーラムは約9%)、テクノロジー系フォーラム(hwupgrade のようなフォーラムで約15%)、女性関連トピックを扱うフォーラム(alfemminile)などがある。
- データセットには、troll、スマートフォン、ストリーミングといった新語の出現など、時系列の傾向が現れている。
- このリソースは言語モデル、ドメイン適応、会話分析、社会言語学研究を支援することを意図している一方で、ノイズの可能性と機械学習での慎重な利用の必要性を指摘している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。