Skip to main content
QUICK REVIEW

[论文解读] Monotonic Calibrated Interpolated Look-Up Tables

Maya R. Gupta, Andrew Cotter|arXiv (Cornell University)|May 23, 2015
Stochastic Gradient Optimization Techniques参考文献 40被引用 54
一句话总结

本文提出了一种用于机器学习的单调校准插值查表方法,通过在结构风险最小化框架下使用带线性不等式约束的格栅回归,确保函数在关键输入特征上的单调性,同时联合学习特征校准以提升可解释性和鲁棒性。该方法在包含多达16个特征和数亿样本的真实世界问题上实现了最先进性能,兼具快速推理、透明性与单调性保证。

ABSTRACT

Real-world machine learning applications may require functions that are fast-to-evaluate and interpretable. In particular, guaranteed monotonicity of the learned function can be critical to user trust. We propose meeting these goals for low-dimensional machine learning problems by learning flexible, monotonic functions using calibrated interpolated look-up tables. We extend the structural risk minimization framework of lattice regression to train monotonic look-up tables by solving a convex problem with appropriate linear inequality constraints. In addition, we propose jointly learning interpretable calibrations of each feature to normalize continuous features and handle categorical or missing data, at the cost of making the objective non-convex. We address large-scale learning through parallelization, mini-batching, and propose random sampling of additive regularizer terms. Case studies with real-world problems with five to sixteen features and thousands to millions of training samples demonstrate the proposed monotonic functions can achieve state-of-the-art accuracy on practical problems while providing greater transparency to users.

研究动机与目标

  • 解决在用户信任和模型行为一致性至关重要的真实世界应用中,对可解释且单调的机器学习模型的需求。
  • 通过确保学习到的函数在关键输入特征上保证单调性,克服黑箱模型的局限性。
  • 在保持可解释性的同时,通过结构化查表与线性插值实现实现高效快速推理。
  • 联合学习特征校准以归一化连续输入并处理分类或缺失数据,提升模型鲁棒性。
  • 通过并行化、小批量训练和随机正则化项采样,将该方法扩展至包含数亿样本的大规模数据集。

提出的方法

  • 在结构风险最小化框架内使用格栅回归,通过插值查表学习灵活的分段线性函数。
  • 通过在格栅参数上添加线性不等式约束来强制实现单调性,确保函数在指定输入特征上非递减。
  • 引入一维校准函数,将原始输入特征(连续、分类或缺失)映射到格栅输入空间,提升特征归一化与模型灵活性。
  • 采用单纯形插值(一种在单纯形上的线性插值变体)实现高效评估,在标准CPU上实现亚微秒级推理时间。
  • 通过为格栅和校准参数分别设置学习率的随机梯度下降方法,处理联合校准与格栅学习带来的非凸性问题。
  • 通过小批量训练、并行化与平均策略,以及加性正则化项的随机采样,加速大规模训练。

实验结果

研究问题

  • RQ1在保持真实世界数据集上高精度与快速推理的前提下,能否在插值查表中保证单调性?
  • RQ2联合学习特征校准在提升混合类型特征(连续、分类、缺失)的模型性能与可解释性方面有多有效?
  • RQ3当在包含数亿样本的大规模数据集上训练时,单调格栅模型的实际可扩展性极限是什么?
  • RQ4插值方法的选择(单纯形插值 vs. 多线性插值)如何影响精度、计算效率与单调性保持?
  • RQ5联合校准与格栅学习带来的非凸性在多大程度上影响优化稳定性与最终模型精度?

主要发现

  • 所提出的单调校准插值查表在包含多达16个特征和数亿训练样本的真实世界问题上实现了最先进精度。
  • 单纯形插值实现亚微秒级推理(20个特征的格栅为2微秒),使该方法适用于实时应用场景。
  • 联合学习的校准显著提升了模型在混合类型特征(包括分类和缺失数据)上的性能,通过在格栅评估前对输入进行归一化。
  • 该方法在所有测试的真实世界问题中成功实现了单调性,确保模型行为与领域知识一致(例如,汽车价值随里程增加而下降)。
  • 正则化项的随机采样与小批量训练显著提升了训练速度,使大规模数据集上的高效优化成为可能。
  • 该方法可推广至单调性之外的其他约束,如子模性或从先前模型的有界变化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。