[论文解读] Which Encoding is the Best for Text Classification in Chinese, English, Japanese and Korean?
本文对中文、英文、日文和韩文的473种文本分类模型进行了全面的实证研究,采用多种编码方式——UTF-8字节、字符、词语、音译形式和嵌入表示——在逻辑模型、fastText和卷积神经网络中进行比较。主要发现是,字节级独热编码在卷积神经网络中始终表现优异,而fastText在使用字符n-gram时达到最先进性能,但当特征丰富度提高时容易出现过拟合。
This article offers an empirical study on the different ways of encoding Chinese, Japanese, Korean (CJK) and English languages for text classification. Different encoding levels are studied, including UTF-8 bytes, characters, words, romanized characters and romanized words. For all encoding levels, whenever applicable, we provide comparisons with linear models, fastText and convolutional networks. For convolutional networks, we compare between encoding mechanisms using character glyph images, one-hot (or one-of-n) encoding, and embedding. In total there are 473 models, using 14 large-scale text classification datasets in 4 languages including Chinese, English, Japanese and Korean. Some conclusions from these results include that byte-level one-hot encoding based on UTF-8 consistently produces competitive results for convolutional networks, that word-level n-grams linear models are competitive even without perfect word segmentation, and that fastText provides the best result using character-level n-gram encoding but can overfit when the features are overly rich.
研究动机与目标
- 评估从UTF-8字节到音译词语等不同文本编码策略在中文、英文、日文和韩文文本分类中的有效性。
- 评估不同模型(包括逻辑模型、fastText和卷积神经网络)在多种编码方案下的性能表现。
- 确定低层次编码(如字节或字形)是否能在多语言环境下超越传统的词级或字符级表示。
- 通过14个大规模数据集建立系统性基准,为未来统一的多语言文本表征研究提供指导。
提出的方法
- 本研究采用包含14个多样化文本分类数据集的大规模基准测试——涵盖数百万条样本——涉及四种语言的情感分析与主题分类任务。
- 评估多种编码层级:UTF-8字节、字符、词语(带/不带分词)、音译字符和音译词语。
- 针对每种编码方式,模型包括多项式逻辑回归、fastText以及两种CNN架构(大/小),并采用三种编码器类型:独热编码、字符字形图像和学习嵌入表示。
- CNN模型使用ReLU激活函数和最大池化操作,除输入编码层外架构共享,确保不同编码机制之间的公平比较。
- 对fastText进行超参数调优,并基于验证准确率采用早停法进行训练验证。
- 所有代码与数据集均以开源许可证发布,以支持可复现性与社区使用。
实验结果
研究问题
- RQ1在中文、日文、韩文和英文中,哪种文本编码层级——UTF-8字节、字符、词语、音译形式或嵌入表示——在文本分类任务中表现最佳?
- RQ2在多语言文本分类中,逻辑模型、fastText和卷积神经网络在不同编码层级下的表现如何比较?
- RQ3在多语言文本处理中,字节级独热编码是否优于字符级或词级编码在卷积神经网络中的表现?
- RQ4当使用字符n-gram等丰富特征表示时,fastText在中日韩语言中过拟合的程度如何?
- RQ5低层次编码(如字符字形或UTF-8字节)能否实现统一的、与语言无关的深度学习模型文本表征?
主要发现
- 字节级独热编码在所有语言和模型类型中均表现出稳定且具有竞争力的结果,尤其在卷积神经网络中表现突出,表明低层次表征具有高度有效性。
- fastText在中文、日文和韩文中使用字符n-gram时达到最佳整体性能,但在英文中则以词级n-gram表现最佳。
- 即使未进行完美分词,CJK语言的词级编码仍保持较强竞争力,表明词边界的重要性可能低于以往假设。
- 尽管模型容量低于CNN,fastText在特征丰富度提高时比卷积神经网络更容易出现过拟合。
- 使用n-gram或TF-IDF变体的字符袋或词袋逻辑模型仍具有高度竞争力,凸显其持久有效性。
- 将字符字形图像作为CNN输入是可行的,但其性能不如字节级独热编码,后者在性能和简洁性方面更具优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。