Alluxio Local Cache 监控指南

作者

张策：Alluxio PMC & 联通大数据工程师

01 什么是 Alluxio Local Cache

随着云计算在基础设施领域的市场份额持续上升，主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施，并以此为云提供商降低成本。但是，存储计算分离也为查询延迟带来了新的挑战，因为当网络饱和时，通过网络扫描大量数据将受到 IO 限制。此外，元数据也面临远程网络来检索的性能问题。

数据编排系统 Alluxio 预见到了存算分离的发展趋势，并通过分布式缓存服务为 Presto、Spark 等引擎加速查询性能。为了在存算分离架构中实现亚秒级的查询延迟，Alluxio 和 Presto 的核心团队合作实现了客户端嵌入式缓存库 Alluxio Local Cache，来进一步减少数据分析引擎和 Alluxio 之间的通信开销。

相关博客如下：

Alluxio Data Caching : https://prestodb.io/blog/2020/06/16/alluxio-datacaching

Presto RaptorX : https://prestodb.io/blog/2020/06/16/alluxio-datacaching

02 Alluxio Local Cache 配置与启用

2021 年大部分时间 Local Cache 仅支持 Presto Hive Connector，并已经得到大规模应用。社区于2021年底新增了Local Cache 对 Presto Iceberg Connector 的支持，相关内容将在之后的博客做深入介绍。

如何在 Presto on Hive 场景配置、启用 Local Cache：

1. Presto 配置文件：etc/catalog/hive.properties

hive.node-selection-strategy=SOFT_AFFINITY

2.修改 Presto 配置文件：etc/catalog/hive.properties，缓存路径推荐配置为 Ramdisk 或 SSD 来达到最佳效果。

cache.enabled=true
cache.base-directory=file:///mnt/flash/data
cache.type=ALLUXIO
cache.alluxio.max-cache-size=1600GB

3. 启动 Presto

Tips：除数据缓存（Data cache）外，其他缓存功能为实验特性。

03 如何监控 Local Cache

为了提升 Local Cache 的可观测性，我们可以通过 prometheus jmx exporter 将 Worker 的指标暴露出来，使用 prometheus 采集后做进一步分析。

监控配置与启用

1.新增jmx_prometheus_config.yaml配置文件

global:
  scrape_interval:     15s
  evaluation_interval: 15s

2.下载jmx_prometheus_javaagent-.jar，简称jmx_prometheus_javaagent.jar

3.presto jvm.config 配置中新增

-javaagent://jmx_prometheus_javaagent.jar=://jmx_prometheus_config.yaml

4.重启 Presto

5.访问 http://<presto_worker>:port/ 查询是否配置成功

6.将指标接入 prometheus，在 promethues 配置文件中新增


scrape_configs:
  - job_name: "presto_local_cache"
    scrape_interval: 15s
    static_configs:
      - targets: [":"]
        labels:
          appname: "presto_local_cache"