Skip to main content
QUICK REVIEW

[论文解读] The Vertica Analytic Database: C-Store 7 Years Later

Andrew Lamb, Matt Fuller|arXiv (Cornell University)|Aug 21, 2012
Advanced Database Systems and Queries参考文献 15被引用 26
一句话总结

本文介绍了 Vertica,一个商业化的、分布式的大规模并行分析型数据库,其源自 C-Store 研究原型。通过采用列式存储、向量化查询执行、自适应压缩和无共享架构,该系统在 PB 级分析工作负载中实现了高性能,证明了现代 RDBMS 系统在保持标准 SQL 接口的同时,也能实现 Web 规模性能。

ABSTRACT

This paper describes the system architecture of the Vertica Analytic Database (Vertica), a commercialization of the design of the C-Store research prototype. Vertica demonstrates a modern commercial RDBMS system that presents a classical relational interface while at the same time achieving the high performance expected from modern "web scale" analytic systems by making appropriate architectural choices. Vertica is also an instructive lesson in how academic systems research can be directly commercialized into a successful product.

研究动机与目标

  • 展示 C-Store 学术研究如何成功转化为可扩展的、生产级的分析型数据库系统。
  • 解决传统 OLTP 优化的 RDBMS 系统在处理现代大规模分析工作负载时的性能瓶颈。
  • 证明现代、分布式、无共享架构的 RDBMS 可在处理 PB 级数据时实现高性能,同时保持完整的 ACID 兼容性和 SQL 接口。
  • 分享真实生产环境中的部署与实现经验,为未来大规模分析系统的研究提供指导。

提出的方法

  • 采用列式存储模型,以优化扫描大量元组的分析型查询。
  • 实现向量化查询执行,以利用 SIMD 并行性并减少 CPU 指令开销。
  • 使用自适应压缩技术,包括游程编码(RLE)、字典编码,以及压缩前的排序,以减少存储和 I/O。
  • 设计无共享、大规模并行的架构,实现节点增加时的线性可扩展性,并避免网络瓶颈。
  • 支持在线操作,如数据加载、维护和模式变更,而无需停机或暂停查询。
  • 优先考虑易用性,通过自动化物理设计、索引和存储管理,降低管理开销。

实验结果

研究问题

  • RQ1商业 RDBMS 系统如何在保留标准 SQL 接口的同时,实现分析工作负载的 Web 规模性能?
  • RQ2在分布式、无共享数据库系统中,哪些架构选择能够实现 PB 级数据的线性可扩展性?
  • RQ3与基于行的设计相比,列式存储、压缩和向量化执行在分析系统中能在多大程度上提升性能并减少 I/O?
  • RQ4真实生产环境中的部署经验如何影响大规模分析数据库的设计与演进,超越学术原型?
  • RQ5现代、完全支持 ACID 的 RDBMS 是否能在分析工作负载中超越 NoSQL 系统,同时保持关系语义?

主要发现

  • 对于 100 万个随机整数,Vertica 的压缩比达到 12.5:1,通过列式编码和压缩将原始 CSV 的 7.5 MB 减少至 0.6 MB。
  • 对于 2 亿条客户记录,Vertica 将数据压缩至 418 MB(每行 2.1 字节),而原始 CSV 为 6200 MB,gzip 压缩后为 1050 MB,显示出显著的存储节省。
  • 在压缩前对数据进行排序,使客户数据集大小减少至 418 MB,其中单个列如 Metric(5 KB)和 Meter(35 MB)通过 RLE 实现了高效率压缩。
  • 系统在数据加载和复杂分析查询方面均实现了高性能,批量加载速率足以避免成为并发查询的瓶颈。
  • Vertica 的架构在基于 Linux 的通用 x86-64 服务器和千兆以太网环境下实现了线性可扩展性,避免了共享存储瓶颈。
  • 该系统在超过 500 个生产部署中取得成功,包括多个超过 1 PB 的实例,验证了现代、分布式、列式 RDBMS 系统在商业和技术上的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。