QUICK REVIEW

[论文解读] The return of AdaBoost.MH: multi-class Hamming trees

Balázs Kégl|arXiv (Cornell University)|Dec 20, 2013

Machine Learning and Data Classification参考文献 20被引用 88

一句话总结

本文提出哈明树（Hamming trees），一种新型的多类别提升方法，适用于AdaBoost.MH框架，通过训练向量值决策树来优化多类别边界，而无需将问题简化为K个一对多的二分类任务。通过将基学习器分解为与输入无关的标签向量和与标签无关的标量分类器，该方法实现了高效的树构建，并在基准数据集上实现了最先进性能，与支持向量机（SVMs）和AOSOLogitBoost相当或更优，显著优于其他AdaBoost.MH实现。

ABSTRACT

Within the framework of AdaBoost.MH, we propose to train vector-valued decision trees to optimize the multi-class edge without reducing the multi-class problem to $K$ binary one-against-all classifications. The key element of the method is a vector-valued decision stump, factorized into an input-independent vector of length $K$ and label-independent scalar classifier. At inner tree nodes, the label-dependent vector is discarded and the binary classifier can be used for partitioning the input space into two regions. The algorithm retains the conceptual elegance, power, and computational efficiency of binary AdaBoost. In experiments it is on par with support vector machines and with the best existing multi-class boosting algorithm AOSOLogitBoost, and it is significantly better than other known implementations of AdaBoost.MH.

研究动机与目标

解决现有AdaBoost.MH实现将多类别问题简化为K个一对多二分类任务的局限性，该简化方式会损害性能。
开发一种方法，在保持二分类AdaBoost概念简洁性和计算效率的同时，将其扩展至多类别设置。
通过引入分解的向量值基学习器架构，使复杂基学习器（如决策树）能够在AdaBoost.MH中使用。
证明哈明树在无需问题特定调整的情况下，于多类别分类基准上达到最先进性能。

提出的方法

该方法引入一种分解的向量值基学习器，由长度为K的与输入无关的标签向量和与标签无关的标量分类器组成。
在每个内部节点，丢弃依赖标签的向量，仅使用标量分类器将输入空间划分为两个区域，从而实现树的构建。
基学习器使用决策桩作为标量组件进行优化，从而实现二元划分与输出码的联合高效优化。
该算法在AdaBoost.MH框架内最大化多类别边界，避免了对K个独立的一对多分类器的需求。
由于其在处理多维输出方面的内在灵活性，该方法兼容多标签学习和多任务学习。
实现使用开源软件包（multiboost）以确保可复现性，并在所有对比方法中确保公平的超参数调优。

实验结果

研究问题

RQ1多类别提升能否在不将问题简化为K个一对多二分类任务的前提下，有效扩展至使用决策树？
RQ2将向量值基学习器分解为与输入无关的标签向量和与标签无关的标量分类器，是否能实现高效且有效的多类别学习？
RQ3哈明树的性能与AOSOLogitBoost和SVMs等最先进多类别提升算法相比如何？
RQ4使用哈明树的AdaBoost.MH能否优于其他使用标准决策树或一对多方法的AdaBoost.MH实现？
RQ5该方法在包括图像识别和排序任务在内的多样化多类别问题上是否具备鲁棒性和泛化能力？

主要发现

在MNIST数据集上，使用基于像素的决策桩和50,000次迭代，AdaBoost.MH结合哈明树的测试误差为1.25%，位列最先进浅层分类器之列。
使用哈尔滤波器和四节点树，迭代10,000次，该方法在MNIST上的测试误差达到0.85%，与经典卷积神经网络性能相当。
在Kaggle情感识别挑战中，该方法取得17名，测试误差为57%，优于许多非深度学习基线模型。
在Yahoo! 学习排序挑战中，该方法表现进入前十名，结果与冠军模型无显著差异。
该方法在INTERSPEECH挑战的情感子任务中夺冠，在社交信号子任务中获得亚军，证明了其在真实世界任务中的有效性。
实证结果表明，哈明树优于其他AdaBoost.MH实现（如Zhu et al., 2009；Mukherjee & Schapire, 2013），且在五个基准数据集上与AOSOLogitBoost和SVMs性能相当。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。