QUICK REVIEW

[论文解读] LIFT: Reinforcement Learning in Computer Systems by Learning From Demonstrations

Michael Schaarschmidt, Alexander Kuhnle|arXiv (Cornell University)|Aug 23, 2018

Data Stream Mining Techniques参考文献 56被引用 38

一句话总结

LIFT 是一个端到端的软件堆栈，通过从人类提供的示范（如查询日志或基于规则的配置）中预训练智能体，使数据库和流处理系统中的深度强化学习（DRL）成为可能。使用 TensorForce 作为后端，LIFT 智能体在不完美示范上训练的结果，在延迟和空间效率方面相比人工设计的启发式方法和专家基线，性能最高提升 70%。

ABSTRACT

Reinforcement learning approaches have long appealed to the data management community due to their ability to learn to control dynamic behavior from raw system performance. Recent successes in combining deep neural networks with reinforcement learning have sparked significant new interest in this domain. However, practical solutions remain elusive due to large training data requirements, algorithmic instability, and lack of standard tools. In this work, we introduce LIFT, an end-to-end software stack for applying deep reinforcement learning to data management tasks. While prior work has frequently explored applications in simulations, LIFT centers on utilizing human expertise to learn from demonstrations, thus lowering online training times. We further introduce TensorForce, a TensorFlow library for applied deep reinforcement learning exposing a unified declarative interface to common RL algorithms, thus providing a backend to LIFT. We demonstrate the utility of LIFT in two case studies in database compound indexing and resource management in stream processing. Results show LIFT controllers initialized from demonstrations can outperform human baselines and heuristics across latency metrics and space usage by up to 70%.

研究动机与目标

解决强化学习（RL）在计算机系统中实际部署所面临的高数据成本、高训练成本、不稳定性以及工具缺乏等问题。
通过利用现有的系统日志和人类示范作为预训练数据，减少在线训练时间。
提供一个统一、模块化的软件堆栈，用于将 DRL 应用于数据管理工作负载，包括数据库索引和流处理。
证明从不完美的示范中进行预训练，相比仅在线训练，能实现更快的收敛速度和更优的性能。
引入 TensorForce，一个声明式的 TensorFlow 库，用于应用 DRL，作为 LIFT 的算法后端。

提出的方法

LIFT 接收系统轨迹（如包含查询计划、执行统计信息和索引使用情况的慢查询日志），并通过用户定义的模式将其映射为状态、动作和奖励。
从日志或基于规则的系统中提取示范，其中每个轨迹对应模仿学习中的一个状态-动作-奖励三元组。
该框架使用带示范的深度 Q 学习（DQfD）来预训练 DRL 智能体，利用置信度分数对高质量示范进行加权。
TensorForce 从状态、动作和奖励的规范中生成 TensorFlow 计算图，抽象出底层模型构建细节。
预训练智能体在真实系统环境中进行在线微调，以适应动态工作负载。
该系统支持离线预训练和在线优化，实现快速收敛并提升泛化能力。

实验结果

研究问题

RQ1是否能够有效利用来自数据管理工作负载中系统日志的不完美人类示范，对强化学习控制器进行预训练？
RQ2从示范中进行预训练在多大程度上能够减少数据库和流处理系统中的在线训练时间，并提升最终性能？
RQ3在延迟和资源使用方面，基于不完美示范训练的 DRL 智能体与人工设计的启发式方法和专家基线相比表现如何？
RQ4一个统一的、声明式的深度强化学习库（TensorForce）是否能够作为多样化数据管理应用的可扩展后端？
RQ5在 DQfD 框架中，使用大间隔函数为示范分配置信度，对真实系统控制有何影响？

主要发现

在不完美基于规则的示范上预训练的 LIFT 智能体，在数据库复合索引的延迟和空间使用方面，性能相比人工基线和启发式方法最高提升 70%。
预训练阶段显著减少了在线训练时间，使收敛时间缩短至数小时内，而非不切实际的长时间。
在流处理中，LIFT 在 Heron 上成功学习到了最优的任务并行化配置，证明了其在索引之外的可扩展性。
使用 DQfD 并结合置信度加权，使得从不完美示范中有效学习成为可能，提升了样本效率和训练稳定性。
TensorForce 通过抽象复杂深度学习和强化学习实现细节，实现了 DRL 智能体的快速原型设计和部署。
该框架证明，利用现有系统日志和启发式方法作为示范，是实现生产环境中实用化 DRL 部署的可行路径。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。