快速计算丨在混合云上使用Alluxio可为您节省的基础设施投入成本 →

Alluxio Edge

是轻量级用于加速 Trino 和 PrestoDB 访问数据的缓存库

申请试用

Alluxio Edge 软件试用申请

主要适用于Trino/PrestoDB 大规模分析场景,我们将有专业工程师来支持您的试用。

核心工作原理与仪表盘

Alluxio Edge核心工作原理

用Trino举例,当Trino 通过连接器(比如Hudi)尝试访问数据时,它将请求AlluxioCachingFileSystem。AlluxioCachingFileSystem检查后发现缓存被命中了,它会通过缓存管理器(AlluxioCacheManager)从本地SSD或内存中访问数据;如果缓存并未命中,请求则会被发送到UnderFileSystem中,UnderFileSystem负责从存储系统中(例如S3、HDFS等)访问数据。在数据被读取后,AlluxioCachingFileSystem会通过AlluxioCacheManager异步缓存数据。

Alluxio Edge仪表盘

它可以对Trino/PrestoDB上所有的Edge节点收集的指标进行集中化汇总和展示,提供的信息包括集群摘要、成本节省、资源使用状态等。通过使用仪表盘,用户可以了解当前Edge的状态,比如缓存空间有多少、使用了多少;Edge帮助用户节约了多少数据访问成本,比如一共多少S3 API被调用、多少S3 API调用实际产生了费用;资源状态指标,如果我们在仪表盘上看到峰值,可能会发现系统出了问题。

Trino / PrestoDB 的大规模分析场景

Alluxio 的解决方案

实时响应和分析,同时在S3存储上节省成本

以Trino为例,当有一个Trino工作节点时,Edge在Trino工作节点嵌入一个本地缓存。Trino工作节点和Edge在数量上是一一对应的。通常,一个Trino集群中包含很多TrinoWorker节点,所以也会有多个Edge。Edge会利用本地节点的存储资源缓存数据,因此当Trino从S3等地方访问数据时,数据会经过Edge,并被Edge自动缓存在本地的存储中。Edge提供一个仪表盘,来汇总整个Trino集群中所有Edge的统计信息,并在仪表板中汇总、显示诸如集群信息、成本节约、资源状态之类的内容。左图显示了Edge的参考架构。

提升 & 增益

Edge使端到端查询的性能提高了大约1.5倍到10倍。仅在I/O加速方面,达到10到50倍的I/O速度提升。

云存储API的调用在使用Edge后减少了50%到90%。

有的时候,如果有大量请求同时发送到S3时,S3可能会出现流量限制,其他的对象存储也会有相同的限流行为来保证系统的整体公平性和稳定性。当限流出现时,查询性能会变得不稳定。通过使用Edge,数据缓存有助于减少网络拥塞和存储系统需要接受的请求数量,因此也有助于减轻底层存储的负载。

Alluxio Edge 三大核心价值

价值一:通过本地数据提升性能
Alluxio Edge 可优化 I/O,通过将热数据本地化到计算节点,可显著提高查询性能。特别是在远程数据湖上实现本地查询延迟。

价值二:降低云计算成本
当大部分请求和数据通过 Alluxio Edge 服务时,云传输成本可根据请求和数据的缓存命中率成比例地降低。这是 Alluxio 非常直接的成本节约优势。

价值三:让所访问存储更稳定
当 Alluxio Edge 处于计算和存储中间位置时,底层存储在负载和网络拥塞方面会得到了极大的缓解,这有助于让不堪重负的存储(如 HDFS)访问更稳定。

申请试用

Alluxio Edge 软件试用申请

主要适用于Trino/PrestoDB 大规模分析场景,我们将有专业工程师来支持您的试用。