[论文解读] Cost-Sensitive Tree of Classifiers
本文提出成本敏感分类器树(CSTC),一种树状集成模型,通过基于成本-准确率权衡动态地将昂贵特征分配给特定输入子区域。通过使用混合范数松弛对测试时的预期成本进行建模,并在单一全局损失下联合优化所有分类器,CSTC在计算成本仅为传统方法一小部分的情况下实现了最先进的准确率,尤其在网页搜索排序等高成本特征场景中表现卓越。
Recently, machine learning algorithms have successfully entered large-scale real-world industrial applications (e.g. search engines and email spam filters). Here, the CPU cost during test time must be budgeted and accounted for. In this paper, we address the challenge of balancing the test-time cost and the classifier accuracy in a principled fashion. The test-time cost of a classifier is often dominated by the computation required for feature extraction-which can vary drastically across eatures. We decrease this extraction time by constructing a tree of classifiers, through which test inputs traverse along individual paths. Each path extracts different features and is optimized for a specific sub-partition of the input space. By only computing features for inputs that benefit from them the most, our cost sensitive tree of classifiers can match the high accuracies of the current state-of-the-art at a small fraction of the computational cost.
研究动机与目标
- 解决大规模机器学习应用中测试时计算成本与分类器准确率之间的平衡挑战。
- 通过避免对无法从昂贵特征中获益的输入进行不必要的特征提取,减少能源浪费和经济成本。
- 实现动态、输入相关的特征选择,仅在能提升分类性能时分配昂贵特征。
- 在训练过程中显式建模预期测试时成本,为成本敏感学习提供一个系统化的框架。
- 在真实世界数据上,优于现有的级联式与正则化方法,在成本-准确率权衡方面表现更优。
提出的方法
- 构建一个分类器树,其中每条路径对应一个唯一的特征集和输入子区域。
- 使用概率遍历框架对输入在树中遍历时的预期测试时成本进行建模。
- 通过混合范数松弛对预期成本进行松弛,以支持连续优化。
- 通过单一全局损失函数联合优化所有分类器,以平衡准确率与测试时成本。
- 采用成本敏感的训练目标,优先在更深层、较少被遍历的路径中进行特征提取。
- 对预测节点进行微调,以提升排序性能,且不增加测试时成本。
实验结果
研究问题
- RQ1如何对树状分类器系统的预期测试时成本进行建模并最小化?
- RQ2能否联合优化分类器参数与特征分配,以在准确率与计算成本之间实现平衡?
- RQ3在平衡且特征丰富的学习任务中,基于树的输入相关特征选择方法是否优于线性级联方法?
- RQ4昂贵特征在树的不同输入子区域中如何分配?
- RQ5在严格的计算预算下,CSTC在保持高排序性能(如NDCG)方面能达到何种程度?
主要发现
- CSTC在成本-准确率权衡方面显著优于SOTA方法(如Cronus和早期退出基线),尤其在低预算条件下表现更优。
- 在Yahoo!网页搜索排序数据集上,CSTC以远低于基线模型的计算成本,维持了高水平的NDCG得分。
- 昂贵特征(成本≥20)主要在深层节点中提取,仅用于分类难度较高的小部分输入子群体。
- 廉价特征(成本≤5)在树的早期阶段被提取,以实现对易分类输入的低成本过滤。
- 随着树中路径间距离的增加,分类器之间的Jaccard相似度下降,证实不同区域使用了不同的特征集。
- 微调对NDCG的提升微乎其微,表明主要性能增益来源于树结构与成本感知的特征分配机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。