QUICK REVIEW

[論文レビュー] Towards Automated Lexicography: Generating and Evaluating Definitions for Learner's Dictionaries

Yusuke Ide, Adam Nohejl|arXiv (Cornell University)|Jan 5, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

要約: 本論文は学習者辞典定義生成のフレームワーク（LDDG）を開発し、新しい日本語DDGデータセット（D3J）をLLMベースのジャッジで評価した上で、定義が定義語彙内に収まるよう反復的簡易化を提案し、Wiktionaryを複数の指標で凌駕する高品質な定義を達成することを示す。

ABSTRACT

We study dictionary definition generation (DDG), i.e., the generation of non-contextualized definitions for given headwords. Dictionary definitions are an essential resource for learning word senses, but manually creating them is costly, which motivates us to automate the process. Specifically, we address learner's dictionary definition generation (LDDG), where definitions should consist of simple words. First, we introduce a reliable evaluation approach for DDG, based on our new evaluation criteria and powered by an LLM-as-a-judge. To provide reference definitions for the evaluation, we also construct a Japanese dataset in collaboration with a professional lexicographer. Validation results demonstrate that our evaluation approach agrees reasonably well with human annotators. Second, we propose an LDDG approach via iterative simplification with an LLM. Experimental results indicate that definitions generated by our approach achieve high scores on our criteria while maintaining lexical simplicity.

研究の動機と目的

LDsの自動辞書定義の必要性を動機付け、定量化する。
LLMをジャッジとして用いるDDGの信頼性の高い多次元評価フレームワークを導入する。
LDsの定義語彙を定義した日本語DDG評価データセット（D3J）を構築する。
few-shot promptingと反復的簡易化を組み合わせたLDDGアプローチを提案し、語彙制約を満たす。

提案手法

DDGの4つの評価基準を提案する：真実性、カバレッジ、センスの特異性、ガイドライン遵守。
これらの基準を0–100点に対応付けるルーブリックを設計し、Prometheus-Evalを適用して細粒度の判断を行う。
D3JをJMdict、BCCWJ、Wiktionaryのソースを統合して作成し、16K語彙定義語彙（TUBE16K）と3Kサブセット（TUBE3K）を定義、辞書学者に定義をレビューしてもらう。
LLM（GPT-5.1、Claude）を用いたfew-shot promptingに基づくLDDGパイプラインを実装し、オープンウェイトモデル（Qwen、Swallow）と比較する。
IterSimという複雑語を定義語彙内に含まれないものを除去しつつ意味の正確さを保つ反復的簡易化アルゴリズムを開発する。）
評価の妥当性を、LLMベースの判断と人間アノテータの Kendallのτ で比較して検証する。

実験結果

リサーチクエスチョン

RQ1マルチ基準の再現性ある評価フレームワークは、LLMによって生成された辞書定義を信頼性高く評価できるか。
RQ2LDDG定義は厳密な学習者向け語彙にどれだけ適合しつつ、意味の網羅性と真実性を維持できるか。
RQ3Iterative簡易化は語彙の単純さを向上させつつ、意味とセンスの一致を損なわないか。
RQ4LDDG定義は真実性、カバレッジ、センスの特異性、ガイドライン遵守の点でWiktionaryとどう比較されるか。

主な発見

LLMベースの評価（Prometheus-Eval）は人間アノテータとの合理的な一致を示し、Kendallのτは平均して約0.63（基準ごとに）で、4つのDDG基準との整合性でBLEU/BERTScoreを上回る。
D3Jデータセットには325のヘッドワードと546のセンスが含まれ、頻度帯による多義性は23.5%から63.8%の範囲。参照定義は語彙的により簡潔で、TUBE16Kで100%、TUBE3Kで55.1%が該当。
Claudeを用いたfew-shot promptingは全体スコアが高く、3つの基準でWiktionaryを上回ることがあるが、センスの特異性は課題となり得る。
IterSimはTUBE16Kのカバレッジをほぼ100%に近づけつつ、主要評価スコアを維持・向上させ、定義を単純かつ正確にする。
IterSimベースの結果は、真実性、カバレッジ、ガイドライン遵守を損なうことなく語彙的単純さを大幅に改善する。
評価者としてGPT-5.1が他の評価者より高い機械–人間の一致度を示したが、真実性/センスの特異性など一部基準は慎重な解釈が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。