[论文解读] Glyce: Glyph-vectors for Chinese Character Representations
Glyce 引入基于字形的汉字表示,使用历史汉字书体和专门的 Tianzige-CNN,结合辅助的图像分类目标以及可选的与 BERT 的整合,在多项中文 NLP 任务中达到最先进的结果。
It is intuitive that NLP tasks for logographic languages like Chinese should benefit from the use of the glyph information in those languages. However, due to the lack of rich pictographic evidence in glyphs and the weak generalization ability of standard computer vision models on character data, an effective way to utilize the glyph information remains to be found. In this paper, we address this gap by presenting Glyce, the glyph-vectors for Chinese character representations. We make three major innovations: (1) We use historical Chinese scripts (e.g., bronzeware script, seal script, traditional Chinese, etc) to enrich the pictographic evidence in characters; (2) We design CNN structures (called tianzege-CNN) tailored to Chinese character image processing; and (3) We use image-classification as an auxiliary task in a multi-task learning setup to increase the model's ability to generalize. We show that glyph-based models are able to consistently outperform word/char ID-based models in a wide range of Chinese NLP tasks. We are able to set new state-of-the-art results for a variety of Chinese NLP tasks, including tagging (NER, CWS, POS), sentence pair classification, single sentence classification tasks, dependency parsing, and semantic role labeling. For example, the proposed model achieves an F1 score of 80.6 on the OntoNotes dataset of NER, +1.5 over BERT; it achieves an almost perfect accuracy of 99.8\% on the Fudan corpus for text classification. Code found at https://github.com/ShannonAI/glyce.
研究动机与目标
- 在汉字表意语言的 NLP 任务中,推动使用象形的、基于字形的信息。
- 提出 Glyce:来自多种历史书体的汉字图像派生的字形嵌入。
- 开发一种针对小字图像和多种书体的 CNN 架构(Tianzige-CNN)。
- 在多任务设置中通过辅助的图像分类目标提升泛化能力。
- 在标注、分类、句法分析和语义角色标注等任务中展示最先进的性能,并有与 BERT 的潜在整合。
提出的方法
- 将汉字表示为图像,并使用针对小字图像的 Tianzige-CNN (田字格) 提取字形嵌入,并通过分组卷积来降低过拟合。
- 通过使用历史书体(青铜器铭文、篆书、隶书、繁体、草书等)以及多种书写风格的集成来丰富字形信号。
- 应用一个图像分类的辅助目标以预测字符ID,在训练过程中权重逐步衰减以提升泛化能力。
- 可选地通过创建 Glyce-BERT 流水线将字形输出与 BERT 表示融合,并通过 transformer 层处理,从而与 BERT 结合。
- 在级联的字形与 BERT 嵌入上为下游任务(序列标注、单句/句子对分类、句法分析、SRL)使用任务特定的输出层(通常是 transformer)。
- 在多样的中文 NLP 任务上进行评估,并与非 BERT 基线、BERT 以及其他最先进的模型进行比较。
实验结果
研究问题
- RQ1基于历史中国书写体派生的基于字形的表示,是否能在下游 NLP 任务中优于传统的字符/词嵌入?
- RQ2针对小字符图像的专门化 Tianzige-CNN 架构是否比标准 CNN 更好地捕捉字形信息?
- RQ3结合图像分类目标的多任务训练是否提升字形嵌入的泛化能力?
- RQ4Glyce-BERT 的整合是否在标注、分类、解析和 SRL 任务中实现最先进的结果?
- RQ5在使用 glyce 表示时,训练策略和 CNN 架构对性能的影响如何?
主要发现
- Glyce+BERT 在多个数据集和任务上实现了最先进的结果,通常优于单独的 BERT(例如 Table 2 中 NER OntoNotes 的 F1 为 81.63,高于 BERT 的 79.16)。
- 基于 Glyce 的模型在 CWS、POS 和 NER 数据集上取得了优异结果,Glyce+BERT 通常在所测试的配置中提供最佳性能。
- 在句子对分类中,Glyce+BERT 在 BQ、LCQMC、XNLI 和 NLPCC-DBQA 基准上实现新的 SOTA(Table 5)。
- 在单句分类上,Glyce+BERT 在复旦语料上实现近乎完美的准确率(99.8%),并在 ChnSentiCorp、复旦语料和 iFeng 上超越 LSTM/Glyce 基线(Table 6)。
- 在依存句法分析中,Glyce-word 比先前的 SOTA 模型在 UAS/LAS 上提升约 0.8–0.9 点(Table 7)。
- 在 SRL 中,使用 k-order pruning 主干的 Glyce 使 F1 提升了 +0.8,达到 83.7 F1(Table 7)。
- 消融研究表明: (i) BERT-glyce-joint 策略优于其他策略; (ii) 基于 transformer 的任务特定输出优于 BiLSTMs/CNNs/BiMPM; (iii) 图像分类辅助目标大约增加 +0.8 的性能; (iv) Tianzige-CNN 结构相对于普通 CNN 提供显著的 +1.0 F1 提升(表 8–11)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。