[论文解读] Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan
本文提出一个两阶段混合管线,将 BiLSTM-CRF 词汇注释预测与 LLM 后期纠错相结合,使用检索增强提示,在 Jungar Tuvan 上评估以改进 IGT 注释。它为在低资源、形态丰富语言中的结构化模型与 LLM 推理的整合提供设计原则。
Interlinear glossed text (IGT) creation remains a major bottleneck in linguistic documentation and fieldwork, particularly for low-resource morphologically rich languages. We present a hybrid automatic glossing pipeline that combines neural sequence labeling with large language model (LLM) post-correction, evaluated on Jungar Tuvan, a low-resource Turkic language. Through systematic ablation studies, we show that retrieval-augmented prompting provides substantial gains over random example selection. We further find that morpheme dictionaries paradoxically hurt performance compared to providing no dictionary at all in most cases, and that performance scales approximately logarithmically with the number of few-shot examples. Most significantly, our two-stage pipeline combining a BiLSTM-CRF model with LLM post-correction yields substantial gains for most models, achieving meaningful reductions in annotation workload. Drawing on these findings, we establish concrete design principles for integrating structured prediction models with LLM reasoning in morphologically complex fieldwork contexts. These principles demonstrate that hybrid architectures offer a promising direction for computationally light solutions to automatic linguistic annotation in endangered language documentation.
研究动机与目标
- 解决低资源形态丰富语言的逐字对照文本(IGT)创建瓶颈。
- 提出将结构化预测器与 LLM 后期纠错相结合的混合体系结构,以提高注释准确性。
- 系统性评估检索策略、术语表,以及在田野工作场景中的少-shot 扩展设计选择。
提出的方法
- 两阶段架构:以 BiLSTM-CRF 作为初始注释预测的基础模型。
- 使用检索增强提示的 LLM 纠错以细化 BiLSTM 输出。
- 在四个 LLM 上进行评估(deepseek-v3.2-exp、qwen3-max、gpt-4o-mini、gemma-3-27b-it),采用贪婪解码。
- 实验包括检索与随机选择、n-shot 扩展、术语表消融以及混合纠错。
- 假设形态边界的金标准分割;以符号级准确度作为评估指标。

实验结果
研究问题
- RQ1检索增强提示是否比随机示例选择在注释准确性上有提升?
- RQ2在低资源语言中,少-shot(n-shot)扩展如何影响基于 LLM 的注释表现?
- RQ3形态词典在该设定下是有帮助还是有害?
- RQ4混合 BiLSTM-CRF 加上 LLM 纠错的管线是否优于纯 BiLSTM 或纯 LLM 的方法?
- RQ5在田野 IGT 任务中,应用检索策略与词典资源会产生哪些设计原则?
主要发现
| Model | Random | RAG |
|---|---|---|
| deepseek-v3.2-exp | 0.118 | 0.506 |
| qwen3-max | 0.062 | 0.381 |
| gpt-4o-mini | 0.103 | 0.396 |
| gemma-3-27b-it | 0.068 | 0.344 |
- 检索增强提示在所有模型上相比随机示例选择取得显著提升。
- 性能大致随上下文示例数量呈对数增长,在大约 10–15 个示例时趋于稳定。
- 形态词典通常降低性能;部分或完整词典并不能可靠地提升注释准确性。
- 混合 BiLSTM-CRF + LLM 纠错在低-shot 情况下显著优于纯生成。
- 词汇形态在混合纠错中获得的提升最大,而语法形态已被 BiLSTM 基线很好处理。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。