QUICK REVIEW

[论文解读] Task-based End-to-end Model Learning in Stochastic Optimization

Priya L. Donti, Brandon Amos|arXiv (Cornell University)|Mar 13, 2017

Advanced Bandit Algorithms Research被引用 126

一句话总结

本文提出一个端到端框架，通过优化任务损失来训练用于随机规划的概率模型，从而在库存管理、电网调度和能源存储任务中改进决策。

ABSTRACT

With the increasing popularity of machine learning techniques, it has become common to see prediction algorithms operating within some larger process. However, the criteria by which we train these algorithms often differ from the ultimate criteria on which we evaluate them. This paper proposes an end-to-end approach for learning probabilistic machine learning models in a manner that directly captures the ultimate task-based objective for which they will be used, within the context of stochastic programming. We present three experimental evaluations of the proposed approach: a classical inventory stock problem, a real-world electrical grid scheduling task, and a real-world energy storage arbitrage task. We show that the proposed approach can outperform both traditional modeling and purely black-box policy optimization approaches in these applications.

研究动机与目标

激励学习直接优化最终任务目标而非纯预测准确性的预测模型。
将概率建模与随机规划相结合，在不确定性下最小化任务损失。
开发一个可微框架，将任务损失通过优化解传播以更新模型。
在库存管理、发电调度和电池套利上评估该方法，以证明实际收益。

提出的方法

定义任务损失 L(θ) = E[f(x,y,z*(x;θ))] 其中 z*(x;θ) 是使用 p(y|x;θ) 的随机规划问题的解。
通过求解具有分布 p(y|x;θ) 的（潜在受约束的）随机规划来计算 z*(x;θ)。
通过对极小值点求导，使用 KKT 条件获得 ∂z*/∂θ，并通过受任务损失和约束违反引导的梯度步更新 θ。
提出算法 1，在求解 z*(x;θ) 和基于任务损失或违反的约束来更新 θ 之间交替。
在需要时通过惩罚项将概率约束移入目标函数。
应用序列二次规划 (SQP) 和最新的对极小值的求导技术来计算所需的梯度。

实验结果

研究问题

RQ1是否可以直接训练一个概率模型以最小化基于任务的损失，而非预测准确性？
RQ2如何将梯度通过随机规划问题的解传播以更新模型参数？
RQ3在实际的随机优化任务中，端到端的任务基模型是否优于传统 MLE 和无模型策略优化？
RQ4在有约束与无约束的随机规划中，端到端任务驱动学习的收益与权衡是什么？

主要发现

基于任务的端到端方法在所评估的任务中显著超越传统 MLE 和纯策略优化。
在一个现实的电网调度任务中，该任务基方法在传统随机规划基线上的任务损失降低了 38.6%。
当真实分布为非线性或仅能被模型类部分表示时，该方法仍然有效。
在能源价格预测中，该任务基方法表现更可靠并对价格飙升提供对冲。
该方法可以通过对优化解求导来同时适用于无约束和有约束的随机规划。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。