Alluxio AI 3.7 正式发布:亚毫秒级延迟时代来临!

Alluxio AI 3.7 正式发布:亚毫秒级延迟时代来临!

AI 应用虽受益于云存储的扩展性和成本优势,却始终受困于延迟问题。为了弥合差距,Alluxio AI 3.7 应势而生。通过面向云存储的超低延迟缓存解决方案,可将高延迟云存储转变为低延迟存储。最新版本通过透明的分布式缓存层,为云存储中 AI 数据提供亚毫秒级首字节响应(TTFB),可全面加速特征库查询、模型训练、模型部署、代理式 AI 和推理工作负载。 Alluxio AI 3.7 正式发布:亚毫秒级延迟时代来临!

云存储超低延迟缓存技术解密

Alluxio 云存储超低延迟缓存作为透明中间层,部署在 AI 工作负载与云存储之间,可在保持高吞吐性能的同时,实现亚毫秒级的首字节响应(TTFB)。通过 S3 兼容接口(支持 boto 等客户端)以及 POSIX 客户端,用户无需修改代码即可无缝集成 Alluxio。当今 AI 团队面临一个核心矛盾:以 Amazon S3 为代表的云存储虽具备出色的成本效益和扩展性,但其高延迟问题会严重制约 AI 训练和推理工作负载的性能。传统解决方案往往需要复杂的数据预处理流程或昂贵的架构改造。而 Alluxio 提供的这一透明低延迟缓存解决方案完美兼顾了 S3 的经济性与本地存储级的性能。无论是加速特征库查询、模型训练、模型部署,还是推理,Alluxio 云存储低延迟缓存技术无需任何代码修改或数据迁移,即可实现开箱即用的性能提升,当应用请求数据时,Alluxio 会自动将频繁访问的对象缓存到分布式 worker 节点上,实现如下性能提升:
1、延迟较 S3 Standard 最多降低了 98%;
2、延迟较 AWS S3 Express One Zone 最多降低了80%;
3、在 100 Gbps 网络环境下,单个 worker 节点吞吐高达 11.5 GiB/s(98.7 Gbps);
4、可通过增加 worker 节点实现吞吐量与容量的线性扩展。
这项全新低延迟缓存技术由 Alluxio 与 Salesforce 工程团队联合研发,我们已在近期网络研讨会中进行了展示,也将在即将发布的白皮书《中间层方案:实现PB级数据湖Parquet文件查询千倍加速》中进行详细展示。通过突破云存储的延迟瓶颈,Alluxio 可大幅加速访问 PB 级智能体内存(agentic memory)等 AI 工作负载。(近期网络研讨会连接:https://www.alluxio.io/videos/meet-you-in-the-middle-1000x-performance-for-parquet-queries-on-pb-scale-data-lakes)
Alluxio AI 3.7 正式发布:亚毫秒级延迟时代来临!
延迟对比 – 10KB 范围读取
Alluxio AI 3.7 正式发布:亚毫秒级延迟时代来临!
读取吞吐对比 – 单客户端
透明缓存功能还能减少 S3 API 调用和出口流量(egress) 费用,在加速 AI 工作流的同时,显著降低整体基础设施成本。了解更多 Alluxio S3 API 信息:boto3 客户端、PyTorch 客户端、NVIDIA Triton 推理服务器。👉数据访问参考文档:https://documentation.alluxio.io/ee-ai-en/data-access

基于角色的S3访问控制(RBAC)

Alluxio 现已为通过缓存访问的 S3 数据提供全面的基于角色的访问控制(RBAC),支持管理员定义细粒度的权限策略,并与现有身份认证与授权服务集成。随着 AI 应用的普及,企业需要确保缓存数据与底层存储具备同等的安全性与合规性。如果缓存层缺乏访问控制,敏感数据可能会被未授权用户或应用访问,从而带来安全隐患与合规风险。Alluxio 的 RBAC 系统可无缝集成以下主流身份认证服务和鉴权服务:
1、基于 OIDC/OAuth 2.0 的厂商(如 Okta、Cognito、Microsoft AD);
2、用于权限策略管理的 Apache Ranger。
管理员可定义细粒度的访问策略,以控制:
1、用户在通过 Alluxio 访问 S3 数据前的身份验证;
2、对指定 S3 bucket 和对象的访问权限;
3、对缓存数据的操作权限(创建、读取、更新、删除)。
这样可确保 AI 数据在从持久化存储到缓存再到应用的整个生命周期中始终保持安全与合规。👉 认证参考文档:https://documentation.alluxio.io/ee-ai-en/security/authentication👉 鉴权参考文档:https://documentation.alluxio.io/ee-ai-en/security/authorization

Alluxio 分布式缓存预加载器:缓存预加载速度提升 5 倍

增强版 Alluxio 分布式缓存预加载器现支持并行预加载选项,可将大文件(>1GB)的预加载速度提升高达 5 倍。无论是启动新训练任务,还是将模型部署至推理服务器,等待数据加载至计算节点都会造成不必要的延迟。尤其是在大语言模型部署或海量数据集训练时,这种等待时间尤为明显。启用并行加载后,Alluxio 会智能地将大文件分割为小块,并通过多个线程同时加载这些数据块,而非分批预加载缓存。该分布式加载方式大幅缩短了缓存预热时间,可以确保:
1、训练任务从第一个 epoch 开始即使用热数据;
2、模型部署实现快速冷启动;
3、特征库能够立即支持高性能查询。
👉 冷读优化参考文档:https://documentation.alluxio.io/ee-ai-en/data-access/performance/file-reading#cold-read-optimization

FUSE 无中断升级

具有创新性的 Alluxio FUSE 在线升级功能,支持在不中断 AI 工作负载的情况下对 FUSE 服务进行升级,在业内尚属首创。传统的 FUSE 升级通常需要完全停服,断开所有连接并卸载文件系统。对于需要 7×24 小时连续运行的 AI 工作负载(包括训练工作流、推理服务和特征库等),这类停机是无法接受的——每一分钟的停机都可能导致 SLA 不达标、模型更新延迟,甚至是业务损失。Alluxio 的 FUSE 在线升级功能在整个升级过程中仍保持数据可访问性,其实现方式包括:
1、保留活跃的文件句柄和连接;
2、在短暂切换期间对操作进行排队;
3、在数十秒内自动恢复所有操作。
本次发布 Alluxio AI 3.7,完整保留了读取操作(read,stat),写入操作支持将于后续版本推出。该版本可以确保关键 AI 工作负载即使在系统维护期间也能持续运行。
👉FUSE 参考文档:https://documentation.alluxio.io/ee-ai-en/data-access/fuse-based-posix-api/fuse-non-disruptive-migration

面向 Alluxio 管理员的更多新功能

通过直观的 WebUI 简化 Alluxio 部署与配置

Alluxio AI 3.7 正式发布:亚毫秒级延迟时代来临!

Alluxio WebUI 现已全面升级,新增部署与配置模块,大幅简化了集群管理流程。安装 Alluxio K8s Operator 后,管理员即可通过可视化的 WebUI 界面配置集群参数、分配资源,并根据不同工作负载需求自定义部署,实现更快速、更便捷以及更精准的 Alluxio 部署体验。用户可直接通过 WebUI 部署新的 Alluxio 集群,并借助引导式工作流程确保为 AI 工作负载实现最佳配置。该界面会引导你完成从初始设置到高级调优的每一步操作,大大缩短部署时间并减少配置错误。👉 管理控制台参考文档:https://documentation.alluxio.io/ee-ai-en/start/overview

使用审计日志功能审计与分析用户数据访问和操作

全新的 Alluxio 审计日志功能提供对所有数据访问和操作的完整可视化追踪。每一次用户与 Alluxio 的交互都会被自动记录,包括:
1、用户身份与认证信息;
2、执行的操作(读取、写入、删除等);
3、精确的时间戳;
4、被访问的资源与路径。
该详细日志有助于安全团队及时检测异常、调查安全事件,并满足合规监管要求,特别适用于处理敏感数据的企业级 AI  部署场景。
👉 审计日志参考文档:https://documentation.alluxio.io/ee-ai-en/security/audit-log

Alluxio AI 3.7 正式发布:亚毫秒级延迟时代来临!

Alluxio 在 AI 领域一直以提供高性能数据吞吐而闻名。最新发布的 Alluxio AI 3.7 版本通过创新的”云存储超低延迟缓存”技术,在保持高吞吐优势的同时,实现了 S3 存储亚毫秒级首字节延迟(TTFB),并新增缓存预加载及安全增强功能。无论你是在训练基础模型、部署推理服务,还是构建特征库,Alluxio AI 3.7 的新功能都能确保你的 AI 工作负载高效运行。