Skip to main content
QUICK REVIEW

[论文解读] Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Ömer Uğur, Mahmut Göksu|arXiv (Cornell University)|Jan 22, 2026
Topic Modeling被引用 0
一句话总结

论文展示 Mecellem: (1) 基于 ModernBERT 的土耳其语编码器在 112.7B 代币的土耳其语主导大规模语料上从头开始训练,采用下游驱动的检查点策略;(2) 针对 CPT 适配的 Qwen 解码器模型,在土耳其法律文本上实现了 36.2% 的困惑度降低。

ABSTRACT

This paper presents Mecellem models, a framework for developing specialized language models for the Turkish legal domain through domain adaptation strategies. We make two contributions: (1)Encoder Model Pre-trained from Scratch: ModernBERT-based bidirectional encoders pre-trained on a Turkish-dominant corpus of 112.7 billion tokens. We implement a checkpoint selection strategy that evaluates downstream retrieval performance throughout training, revealing that optimal checkpoints achieve best retrieval scores before pre-training loss reaches its minimum. Our encoder models achieve top-3 rankings on the Turkish retrieval leaderboard, with smaller models (155M parameters) achieving comparable performance to larger reference models (307M-567M parameters). Our approach achieves 92.36% production efficiency compared to state-of-the-art models (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ranking fourth overall despite requiring less computational resources. SOTA models rely on multi-stage, computationally intensive training pipelines, making our single-stage pre-training followed by efficient post-training approach a cost-effective alternative; (2)Decoder Model with Continual Pre-training (CPT): Qwen3-1.7B and Qwen3-4B models adapted to Turkish legal domain through controlled curriculum learning. Four-phase CPT with optimal sample ratios enables gradual transition from general language knowledge to specialized legal terminology and long-context reasoning. This approach achieves 36.2% perplexity reduction on Turkish legal text, demonstrating domain adaptation gains.

研究动机与目标

  • 通过在大规模以土耳其语为主的语料库上从头开始预训练,开发土耳其法律 NLP 编码器。
  • 展示下游检索性能如何引导有效的预训练检查点选择。
  • 使用持续预训练与课程学习,将解码器模型适配到土耳其法律领域。
  • 评估并将嵌入/检索性能与最先进的土耳其法律模型进行比较。
  • 提供对领域适应的可扩展、具成本效益的替代方案,替代多阶段训练管线。

提出的方法

  • 在 112.7B 的土耳其语主导代币上,使用 MLM 目标从头训练基于 ModernBERT 的双向编码器。
  • 实现一个检查点选择策略,监控下游检索性能以选择最佳预训练检查点。
  • 通过多种对比学习方法(InfoNCE 变体和带缓存引导的 GISTEmbed)对编码器进行嵌入任务的后训练。
  • 对 Qwen3-1.7B 与 Qwen3-4B 解码器进行持续预训练,采用四阶段课程 focusing on 土耳其法律内容。
  • 进行消融研究以确定 CPT 和课程学习的有效初始化与数据比例配置。
  • 整理并预处理一个大型土耳其法律/通用语料库,采用 SemHash 去重与 FineWeb 质量过滤。
Figure 1: Natural completion rate over a 6.5-hour extraction run.
Figure 1: Natural completion rate over a 6.5-hour extraction run.

实验结果

研究问题

  • RQ1从头开始的土耳其编码器能否在土耳其数据上实现具有竞争力的法律检索性能?
  • RQ2在预训练期间的下游检索评估是否比最低预训练损失得到的检查点更优?
  • RQ3对解码器进行四阶段课程的持续预训练会如何影响土耳其法律术语使用与长上下文推理?
  • RQ4哪些数据集构建、去重和过滤策略能最好地在领域适应与通用语言能力之间取得平衡?
  • RQ5模型规模和训练策略如何与现有 SOTA 土耳其法律 NLP 方法相比?

主要发现

  • 编码器模型在土耳其检索排行榜上进入前 3 名。
  • 较小的编码器(1.55 亿参数)与较大模型(3.07 亿–5.67 亿参数)达到相同水平。
  • 通过对比学习进行编码器后训练,在检索基准上获得具有竞争力的土耳其法律嵌入。
  • 对土耳其法律数据进行 CPT 的解码器实现了 36.2% 的困惑度降低。
  • 四阶段 CPT 配合优化的样本比例实现逐步领域适应,同时保持通用语言能力。
  • 该方法为多阶段训练管线提供了成本效益更高的替代方案,并在与选定基线相比时实现 92.36% 的生产效率。
Figure 2: Token Count Distribution Analysis Across All Threshold Combinations.
Figure 2: Token Count Distribution Analysis Across All Threshold Combinations.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。