Skip to main content
QUICK REVIEW

[论文解读] Deep Learning for Classical Japanese Literature

Tarin Clanuwat, Mikel Bober-Irizar|arXiv (Cornell University)|Dec 3, 2018
Topic Modeling参考文献 15被引用 485
一句话总结

本论文介绍 Kuzushiji 数据集(Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanji),用于对经典日语书写进行机器学习基准,并展示基线分类和域转移实验到现代 Kanji。

ABSTRACT

Much of machine learning research focuses on producing models which perform well on benchmark tasks, in turn improving our understanding of the challenges associated with those tasks. From the perspective of ML researchers, the content of the task itself is largely irrelevant, and thus there have increasingly been calls for benchmark tasks to more heavily focus on problems which are of social or cultural relevance. In this work, we introduce Kuzushiji-MNIST, a dataset which focuses on Kuzushiji (cursive Japanese), as well as two larger, more challenging datasets, Kuzushiji-49 and Kuzushiji-Kanji. Through these datasets, we wish to engage the machine learning community into the world of classical Japanese literature. Dataset available at https://github.com/rois-codh/kmnist

研究动机与目标

  • 通过聚焦 Kuzushiji(草书日语)阅读挑战,激励在具有文化和历史意义的任务上进行 ML 研究。
  • 为经典日本文学领域的机器学习研究提供易于使用的预处理数据集。
  • 建立基线分类结果,并探索从 Kuzushiji-Kanji 到 Modern Kanji 的域转移。
  • 鼓励 ML 与日本文学界的跨学科合作。

提出的方法

  • 发布三种预处理数据集(Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanji)作为熟悉基准的即插即用替代数据集。
  • 使用 4-nearest neighbors、一个小型 CNN,以及带正则化器的 ResNet-18 变体来评估基线分类。
  • 进行域转移实验,使用两个 VAE、一个 MDN 和一个 Sketch-RNN 解码器将 Kuzushiji-Kanji 生成 Modern Kanji 笔画。
  • 将性能与 MNIST 和 Fashion-MNIST 式基线进行比较,以评估难度和分布挑战。

实验结果

研究问题

  • RQ1Kuzushiji 数据集是否能够为历史书写中的图像分类提供有意义且具有挑战性的基准?
  • RQ2与基于 MNIST 的基准相比,现代网络在 Kuzushiji-MNIST 和 Kuzushiji-49 上的表现如何?
  • RQ3在像素表示和笔画表示两种方式上,从 Kuzushiji-Kanji 转移到 Modern Kanji 是否可行?
  • RQ4哪些建模策略(例如 Mixup、manifold mixup)可以在不平衡的 Kuzushiji 数据集上提高准确率?
  • RQ5多模态写作(Hentaigana)如何影响类别的形成与识别?

主要发现

模型MNISTKuzushiji-MNISTKuzushiji-49
4-Nearest Neighbour97.14%91.56%86.01%
Keras Simple CNN Benchmark99.06%95.12%89.25%
PreActResNet-1899.56%97.82%96.64%
PreActResNet-18 + Input Mixup99.54%98.41%97.04%
PreActResNet-18 + Manifold Mixup99.54%98.83%97.33%
  • 基线结果在 MNIST 上表现出高准确度,在 Kuzushiji-MNIST 和 Kuzushiji-49 上的表现较强但较低,模型中 PreActResNet-18 达到 99.56%(MNIST)、97.82%(Kuzushiji-MNIST)和 96.64%(Kuzushiji-49)。
  • 更高级的变体(Input Mixup、Manifold Mixup)将 Kuzushiji 的准确率提升至 98.41%(Kuzushiji-MNIST)和 97.33%(Kuzushiji-49)。
  • Kuzushiji-Kanji 包含 3832 个类别,样本分布严重不均衡,每类样本数从 1 到超过 1,000 不等,凸显其在识别任务中的挑战性。
  • 域转移实验使用两阶段 VAE 方法和 Sketch-RNN 将 Kuzushiji-Kanji 生成 Modern Kanji,展示跨域逐字转写支持的潜力。
  • 数据集捕捉了现实世界的类别不平衡和多模态字符表示(Hentaigana),强调需要比标准 MNIST 类基准更鲁棒的模型。
  • 作者预计将数据集扩展到超过一百万字符图像,并推动竞赛以促进进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。