Skip to main content
QUICK REVIEW

[论文解读] Numerical Coding of Nominal Data

Zenon Gniazdowski, Michał Grabowski|arXiv (Cornell University)|Aug 12, 2015
Neural Networks and Applications参考文献 4被引用 3
一句话总结

本文提出了一种使用复数编码名义数据的新方法,其中模长表示频率(基数),相位编码等基数类别中的顺序位置。通过将名义属性嵌入复数空间,该方法保留了所有原始信息,支持算术运算,并适用于基于度量的学习。在汽车数据集上的评估表明,与临时编码或纯数值编码相比,使用复数编码的名义数据可显著提升分类准确率。

ABSTRACT

In this paper, a novel approach for coding nominal data is proposed. For the given nominal data, a rank in a form of complex number is assigned. The proposed method does not lose any information about the attribute and brings other properties previously unknown. The approach based on these knew properties can been used for classification. The analyzed example shows that classification with the use of coded nominal data or both numerical as well as coded nominal data is more effective than the classification, which uses only numerical data.

研究动机与目标

  • 解决在机器学习中整合名义数据与数值数据时,避免信息丢失或引入任意排序的问题。
  • 开发一种编码方法,在保留所有属性信息的同时,增加几何结构以增强分析能力。
  • 通过复数嵌入,实现在名义数据上进行基于度量的操作(例如距离、聚类)。
  • 评估复数编码的名义数据是否相比标准编码技术能提升分类性能。

提出的方法

  • 根据名义值的频率(基数)为其分配排名,使用 R = (n + 1)/2 计算 n 次出现的值。
  • 对于等基数类别,应用单位根的 k 次根以分配不同的相位:Rj = R · e^(i·2πj/k),其中 j 为类别索引。
  • 将每个名义值编码为模长为 R、相位 φ = 2πj/k 的复数,形成复数空间 C 中的向量。
  • 在复数空间中支持标准算术、标量积、范数和距离(度量),以支持下游学习。
  • 将该方法应用于真实世界数据(汽车属性),对特征进行标准化,并在复数编码特征上使用 k-means 与欧氏距离进行聚类。

实验结果

研究问题

  • RQ1名义数据能否以一种保留频率信息并支持几何运算的方式被编码?
  • RQ2与临时编码或纯数值编码相比,复数编码的名义数据是否能提升分类准确率?
  • RQ3复数编码中的相位分量能否有效区分等基数的名义类别?
  • RQ4复数空间中的度量结构是否适用于聚类和分类任务?

主要发现

  • 使用数值数据与复数编码的名义数据联合进行分类,准确率达到 90%,显著优于仅使用数值数据或临时编码的方法。
  • 仅使用复数编码的名义数据,方法准确率达到 80%,表明名义数据中的频率与类别结构包含有意义的预测信息。
  • 相比之下,仅基于数值数据的分类在 70% 阈值下准确率仅为 12%,凸显了忽略名义数据结构的局限性。
  • 与标准独热编码相比,复数编码降低了名义特征的有效维度,这在高维场景下可能具有潜在优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。