QUICK REVIEW

[論文レビュー] Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Ömer Uğur, Mahmut Göksu|arXiv (Cornell University)|Jan 22, 2026

Topic Modeling被引用数 0

ひとこと要約

本論文は Mecellem を提案する： (1) 法務NLP用に 112.7B トークンで一から学習した ModernBERT ベースのトルコ語エンコーダと、下流ドリブンのチェックポイント戦略；(2) CPT 適応の Qwen デコーダーモデルがトルコ語法務テキストで perplexity を 36.2% 減少

ABSTRACT

This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.

研究の動機と目的

大規模なトルコ語優位コーパスからゼロからトルコ語法務NLPエンコーダを開発する。
事前学習後の下流検索性能が最適な事前学習チェックポイントの選択を導くことを示す。
継続的事前学習を用いてデコーダをトルコ語法務ドメインへ適応し、カリキュラム学習を導入する。
最先端のトルコ語法務モデルと比較して埋め込み/検索性能を評価する。
ドメイン適応のための多段階トレーニングパイプラインの代替として、スケーラブルでコスト効率の高い方法を提供する。

提案手法

MLM を目的としたタスクで 112.7B トルコ語優位トークンから ModernBERT ベースの双方向エンコーダをゼロから事前学習する。
下流検索性能を監視して最適な事前学習チェックポイントを選択するチェクポイント選択戦略を実装する。
埋め込みタスクのために複数の対比学習法（InfoNCE の variantes および GISTEmbed のキャッシュ付きガイド）を用いてエンコーダをポスト学習する。
トルコ語法務内容に焦点を当てた4段階のカリキュラムで Qwen3-1.7B および Qwen3-4B デコーダに継続的事前学習を適用する。
CPT とカリキュラム学習の初期化およびデータ比配置を特定するためのアブレーション研究を実施する。
SemHash ベースのデデュプリケーションと FineWeb 品質フィルタリングを用いた大規模トルコ語法務/一般コーパスの編成と前処理を行う。

Figure 1: Natural completion rate over a 6.5-hour extraction run.

実験結果

リサーチクエスチョン

RQ1ゼロから学習したトルコ語エンコーダはトルコ語データ上で競争力のある法務検索性能を達成できるか？
RQ2事前学習中の下流検索評価は最小の事前学習損失よりも良いチェックポイントを生み出すか？
RQ34段階のカリキュラムを用いたデコーダの継続的事前学習はトルコ語法務用語の使用と長文文脈推論にどのように影響するか？
RQ4データセット構築、デデュプリケーション、およびフィルタリング戦略はドメイン適応と一般言語保持のバランスをどう取るべきか？
RQ5モデル規模と学習戦略は既存のSOTAトルコ語法務NLP手法とどのように比較されるか？

主な発見

エンコーダーモデルはトルコ語検索リーダーボードでトップ3にランクイン。
より小さなエンコーダ（155Mパラメータ）は大規模モデル（307M–567M）と同等の性能を示す。
対比学習を用いたエンコーダのポスト学習は検索ベンチマークで競争力のあるトルコ語法務埋め込みを実現。
トルコ語法務データでのデコーダ CPT は perplexity を 36.2% 減少。
最適化されたサンプル比を用いた4段階 CPT は一般言語スキルを維持しつつ段階的なドメイン適応を可能にする。
このアプローチは多段階トレーニングパイプラインのコスト効率的な代替となり、選択されたベースラインに対して 92.36% の生産性効率を達成。

Figure 2: Token Count Distribution Analysis Across All Threshold Combinations.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。