QUICK REVIEW

[论文解读] On the Generalization Ability of Online Learning Algorithms for Pairwise Loss Functions

Purushottam Kar, Bharath K. Sriperumbudur|arXiv (Cornell University)|May 11, 2013

Advanced Bandit Algorithms Research参考文献 18被引用 37

一句话总结

本文提出了一种基于对称化的解耦技术，用于推导在线学习算法在成对损失函数下的更紧致的 Rademacher 复杂度泛化界。该方法实现了与维度无关的泛化界，并在强凸损失下实现了快速收敛速率，同时支持具有有界遗憾保证的内存高效缓冲更新。

ABSTRACT

In this paper, we study the generalization properties of online learning based stochastic methods for supervised learning problems where the loss function is dependent on more than one training sample (e.g., metric learning, ranking). We present a generic decoupling technique that enables us to provide Rademacher complexity-based generalization error bounds. Our bounds are in general tighter than those obtained by Wang et al (COLT 2012) for the same problem. Using our decoupling technique, we are further able to obtain fast convergence rates for strongly convex pairwise loss functions. We are also able to analyze a class of memory efficient online learning algorithms for pairwise learning problems that use only a bounded subset of past training samples to update the hypothesis at each step. Finally, in order to complement our generalization bounds, we propose a novel memory efficient online learning algorithm for higher order learning problems with bounded regret guarantees.

研究动机与目标

解决在线学习算法在成对学习及高阶学习问题中缺乏紧致泛化误差界的问题。
克服现有基于覆盖数的界对输入维度高度依赖的局限性。
开发一种解耦技术，使成对损失函数的耦合形式能够基于 Rademacher 复杂度进行分析。
支持使用有限缓冲区的内存高效在线学习，同时保持遗憾和泛化保证。
提出一种新型缓冲区更新策略（RS-x²），其随机性使用更少，且在统计特性上与 Vitter 的水库采样等价。

提出的方法

引入期望的对称化作为解耦步骤，将过失风险转化为函数类的 Rademacher 复杂度。
将 Rademacher 复杂度的扩展概念应用于高阶函数类，避免依赖 $L_∞$ 覆盖数。
提出一种两阶段证明技术，将强凸性下的一阶学习设置中的快速收敛结果推广至成对学习设置。
提出一种新型缓冲区更新机制（RS-x²），通过以二项分布采样随机位置进行替换，确保有放回的均匀采样。
通过证明两种策略下缓冲区元素模式的联合分布完全相同，建立 RS-x 与 RS-x² 的等价性。
证明新更新策略每步仅使用 $\mathcal{O}(\log s)$ 个随机位，其随机性效率与 Vitter 的水库采样相当。

实验结果

研究问题

RQ1能否使用 Rademacher 复杂度而非覆盖数，为在线成对学习算法推导出更紧致的泛化界？
RQ2所提出的对称化技术能否为成对损失实现与维度无关的泛化界？
RQ3在在线设置下，是否能为强凸成对损失函数实现快速收敛速率？
RQ4使用有限缓冲区的内存高效在线学习能否保持遗憾和泛化保证？
RQ5所提出的 RS-x² 缓冲区更新策略是否在减少随机性使用的同时，保持了水库采样的统计特性？

主要发现

所提出的解耦技术得到的泛化误差界比 Wang 等人（2012）的结果更紧致，尤其在高维设置下表现更优。
在多种学习场景中，该界与维度无关，而此前基于覆盖数的方法则不然。
对于强凸成对损失函数，该方法实现了 $\mathcal{O}(1/T)$ 的快速收敛速率，将一阶学习中的结果推广至成对学习。
只要算法在基于缓冲区惩罚函数的 regret 上满足有界性，即可为使用有限缓冲区的算法建立泛化界。
RS-x² 缓冲区更新策略每步仅使用 $\mathcal{O}(\log s)$ 个随机位，相比先前方法显著减少了随机性使用。
RS-x² 策略在统计上等价于原始的 RS-x 策略，因为两者在缓冲区元素模式上的联合分布完全相同，从而保证了相同的模型性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。