《Presto查询加速宝典》

Presto是非常流行的在多个数据源上运行大规模交互式分析查询的计算引擎。Presto的定位是SQL-on-Everything,可以用来查询在任何位置的分散数据源。从现有的实践来看,虽然Presto具有处理海量数据的能力,但其在跨工作流的数据访问方面优化不足。

为了应对诸多挑战,我们提出了一个创新架构,搭配部署Presto和Alluxio。Presto和Alluxio的协同工作可实现统一、强大、高性能、低延迟和低成本的分析架构。该架构不仅有利于分析,还有利于数据工作流各阶段的工作,包括数据导入、分析和建模。同时支持跨本地、公有云、混合云和多云环境中的多个存储系统进行快速 SQL 查询。

全球众多公司已经利用Alluxio来升级其当前的Presto平台,包括Meta(Facebook)、TikTok、沃尔玛、腾讯、Shopee、Uber、金山云等,他们把Alluxio 集成到Presto技术栈中,实现了很多益处。

为了帮助大家更好借鉴Presto+Alluxio实践经验,赋能企业数据处理,我们整理了技术专辑《Presto查询加速宝典》,其中收录了典型应用案例、白皮书和技术文章,内容涵盖了实际场景中的优化实践经验。

欢迎立即点击下载。

《Presto查询加速宝典》

Alluxio S3 写缓存介绍

借助 Alluxio S3 写缓存,小对象 PUT 延迟降至约 4-6 毫秒,提升幅度达到 5-8 倍;而大对象写入在低延迟且稳定状态下,每个 Alluxio worker 可持续保持 6GB/s 以上速度,随着 Alluxio worker 的增加,性能几乎呈线性扩展。