[论文解读] RevDedup: A Reverse Deduplication Storage System Optimized for Reads to Latest Backups
RevDedup 是一种反向去重存储系统,通过一种新颖的反向去重技术,将碎片化从最新虚拟机(VM)备份中转移至旧备份,从而优化最新虚拟机备份的读取性能。通过从旧备份中移除重复块,并通过新块进行引用,该系统在最近备份中保持了连续的布局,实现在真实世界虚拟机镜像工作负载下 97% 的存储节省和 1.2–1.7 GB/s 的读取吞吐量。
Scaling up the backup storage for an ever-increasing volume of virtual machine (VM) images is a critical issue in virtualization environments. While deduplication is known to effectively eliminate duplicates for VM image storage, it also introduces fragmentation that will degrade read performance. We propose RevDedup, a deduplication system that optimizes reads to latest VM image backups using an idea called reverse deduplication. In contrast with conventional deduplication that removes duplicates from new data, RevDedup removes duplicates from old data, thereby shifting fragmentation to old data while keeping the layout of new data as sequential as possible. We evaluate our RevDedup prototype using microbenchmark and real-world workloads. For a 12-week span of real-world VM images from 160 users, RevDedup achieves high deduplication efficiency with around 97% of saving, and high backup and read throughput on the order of 1GB/s. RevDedup also incurs small metadata overhead in backup/read operations.
研究动机与目标
- 解决因碎片化导致的去重系统性能下降问题,特别是在频繁访问的最新备份中。
- 在不牺牲存储效率或写入性能的前提下,提升最近虚拟机备份的读取吞吐量。
- 通过重新定义去重策略,将目标从新数据转向旧数据,实现将碎片化从新数据转移到旧数据。
- 设计一种系统,在保持高备份与恢复性能的同时,实现在虚拟化环境中高效的存储利用率。
- 证明反向去重可显著降低最新备份版本读取操作期间的 I/O 开销。
提出的方法
- 通过在备份过程中检查旧备份中现有块是否可被新块替换,实现反向去重,从而从旧数据中移除重复块。
- 采用混合方法,结合跨不同虚拟机的内联粗粒度去重和同一虚拟机版本内的无序细粒度反向去重。
- 使用可配置的阈值驱动块移除机制,结合洞穿(hole-punching)和段压缩,以回收连续空间并减少碎片化。
- 维护一个内容寻址索引,以高效定位和引用跨备份的去重块。
- 采用客户端-服务器架构,支持多个虚拟机客户端向集中式存储服务器提交备份更新。
- 集成对旧备份版本读取的间接引用追踪机制,由于高效的元数据管理,其开销极低。
实验结果
研究问题
- RQ1反向去重是否能通过将重复块移除从新数据转移到旧数据,从而减少最新虚拟机备份中的碎片化?
- RQ2与传统去重系统相比,反向去重对备份和读取吞吐量有何影响?
- RQ3反向去重中块移除和段压缩的性能开销如何?
- RQ4重建阈值如何影响磁盘碎片化程度和块移除效率?
- RQ5间接引用追踪对旧备份版本读取性能的影响是什么?
主要发现
- 在 160 台虚拟机的 12 周数据集上,RevDedup 实现了约 97% 的存储节省,证明了其高效的去重能力。
- 该系统在最新备份上维持了 4–7 GB/s 的备份吞吐量和 1.2–1.7 GB/s 的读取吞吐量,显著优于传统去重系统在读取密集型工作负载下的表现。
- 反向去重的开销(包括块移除和索引)仅占总备份时间的 15–22%,且每版本的块移除时间始终低于 0.26 秒。
- 随着重建阈值的提高,磁盘碎片化程度增加;在 100% 阈值(仅使用洞穿)时,小的空闲区域大小超过存储数据大小,表明碎片化程度较高。
- 读取旧备份时,间接引用追踪最多仅占总读取时间的 15%,证实其性能影响极小。
- 即使在备份版本数量庞大的情况下,系统在备份和读取操作中仍仅产生少量元数据开销,表明其具备面向生产环境的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。