[论文解读] Towards Automated Lexicography: Generating and Evaluating Definitions for Learner's Dictionaries
论文为学习者词典定义生成(LDDG)构建框架,并使用新日本 DDG 数据集(D3J)配合基于大模型的评审进行评估,随后提出迭代简化以确保定义在既定词汇范围内,达到高质量定义,多个标准上优于 Wiktionary。
We study dictionary definition generation (DDG), i.e., the generation of non-contextualized definitions for given headwords. Dictionary definitions are an essential resource for learning word senses, but manually creating them is costly, which motivates us to automate the process. Specifically, we address learner's dictionary definition generation (LDDG), where definitions should consist of simple words. First, we introduce a reliable evaluation approach for DDG, based on our new evaluation criteria and powered by an LLM-as-a-judge. To provide reference definitions for the evaluation, we also construct a Japanese dataset in collaboration with a professional lexicographer. Validation results demonstrate that our evaluation approach agrees reasonably well with human annotators. Second, we propose an LDDG approach via iterative simplification with an LLM. Experimental results indicate that definitions generated by our approach achieve high scores on our criteria while maintaining lexical simplicity.
研究动机与目标
- 说明并量化为学习者词典(LDs)自动化词典定义的需求。
- 引入一种可依赖的、多维度的 DDG 评估框架,使用大模型作为评审标准。
- 构建一个带有简单词汇定义范围的日本 DDG 评估数据集(D3J)。
- 提出结合少样本提示与迭代简化的 LDDG 方法,以满足词汇约束。
提出的方法
- 提出 DDG 的四项评估标准:真实性、覆盖度、意义特异性与指南符合度。
- 设计将这些标准映射到 0–100 分的评估量表,并将 Prometheus-Eval 调整为细粒度判断。
- 通过合并来源(JMdict、BCCWJ、Wiktionary)创建 D3J,定义 16K 词汇的定义词汇表(TUBE16K)和 3K 子集(TUBE3K),并由词典编纂人员评审定义。
- 使用少样本提示与大模型(GPT-5.1、Claude)实现 LDDG 流程,并与开源权重模型(Qwen、Swallow)进行对比。
- 开发迭代简化算法 IterSim,在保持意义准确性的前提下移除不在定义词汇中的复杂词,提升简化程度。
- 通过比较基于大模型的评审与人工评注的 Kendall 对相关性进行验证来评估有效性。
实验结果
研究问题
- RQ1多标准、可重复的评估框架是否能可靠地评估由大模型生成的词典定义?
- RQ2LDDG 定义在严格、对学习者友好的词汇范围内在意义覆盖与真实性保持方面的表现如何?
- RQ3迭代简化是否在不损害对意义的事实对齐的前提下提升词汇简洁性?
- RQ4与 Wiktionary 相比,在真实性、覆盖、意义特异性和指南符合度方面,LDDG 定义表现如何?
主要发现
- 基于大模型的评估(Prometheus-Eval)与人工评注的一致性较好(各标准平均 Kendall 的 tau 约为 0.63),在与四项 DDG 标准的一致性方面优于 BLEU/BERTScore。
- D3J 数据集包含 325 个词头、546 个词义,不同频率段的多义性范围为 23.5% 至 63.8%;参考定义在词汇难度上较简单(TUBE16K 100%,TUBE3K 55.1%)。
- 使用 Claude 的少样本提示在整体评分上表现良好,在三个标准上甚至可超越 Wiktionary,但意义特异性可能具有挑战。
- IterSim 将 TUBE16K 覆盖率提升至接近 100%,同时保持关键评估分数,使定义既简单又准确。
- 基于 IterSim 的结果,在维持真实性、覆盖、指南符合度的前提下,词汇简洁性显著提升。
- 作为评估者的 GPT-5.1 在机器–人工的一致性方面达到最高,但某些标准如真实性/意义特异性需谨慎解读。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。