针对AI和数据分析的Alluxio数据平台

在本地、云、混合或多云环境中,支持无缝访问、管理和运行您的数据和人工智能工作负载

工作原理

Alluxio作为轻量级分布式缓存部署在AI计算工作负载
(训练任务、特征存储库、推理服务器)与AI数据持久存储位置
(如S3云存储、数据湖、NFS)之间。

Alluxio自动将数据缓存至NVMe驱动器,既可利用现有GPU节点的闲置容量,
也可部署在专用CPU节点上——实现本地NVMe级别的数据访问速度。

Alluxio Enterprise AI 平台的优势

针对AI负载 I/O 模式定制的智能缓存

Alluxio 提供分布式缓存,因此AI引擎可以通过访问高性能 Alluxio 缓存, 而非缓慢的数据湖存储来读写数据。其智能缓存策略针对AI工作负载的 I/O 模式量身定制,可为整个AI工作流提供高吞吐量和低延迟。

高效数据加载,无需复制数据

Alluxio 可快速按需加载数据,而非将训练数据复制到本地存储。这消除了数据加载对模型训练速度造成的瓶颈。通过高性能的按需数据访问,可消除数据副本并提高性能。

GPU 利用率高达 90%,最大限度地提高AI平台的投资回报率

Alluxio 可将 GPU 利用率提高至高达90%,使得数据与 GPU 周期同步,并加速模型训练和模型服务。Alluxio 还能使标准化存储实现与专用存储同样的高性能,从而节约成本。

使用Alluxio后
Dataloader中的耗时从 82% 降至 1%
GPU利用率从 17% 提高至 93%

Alluxio Enterprise AI 核心能力一览

架构 去中心化元数据架构
应对十亿、百亿规模硬链接的不合理元数据瓶颈导致系统性能大幅下降
扩展性 单集群可支持的对象数 100 亿
IO 性能线性扩展 支持
集群管理 Kubernetes Operator 引入 Kubernetes Operator 简化集群部署和管理,确保不同环境中的部署一致性,优化硬件利用率,提供持续监控,并将常规任务自动化:Pod 配置、服务配置、挂载 UFS 卷
作业调度器(Job Scheduler) 内置于 Alluxio Core
通过将 job scheduler 集成到 Alluxio Core 中,简化部署和管理
异构 worker 资源 支持具有异构资源配置(CPU, 内存, 网络, 磁盘)的 Alluxio Worker 节点加入同一个 Alluxio 集群,提供更高灵活性
数据访问 统一命名空间 支持
UFS 集成 云存储:AWS S3、阿里云OSS、腾讯云COS、TOS、GCS(v1/v2)、Azure blob、百度BOS;
本地存储:S3兼容存储、HDFS、NAS
Client 侧 UFS 回退机制 客户端UFS回退功能仅在企业版中可用,当 Alluxio Worker无响应时,Alluxio Client 可无缝访问底层文件系统(UFS)中的数据,从而提供对应用程序的持续性保障
访问接口 POSIX(FUSE), S3, PythonSDK/FSSpec
透明数据集集成 透明数据集集成功能使应用程序代码能够通过现有文件系统路径(例如 s3:///)访问Alluxio中的数据
UFS 读取速率限制器 管理员可通过设置速率限制,控制单个 Alluxio Worker 从UFS 获取数据时的最大带宽,实现资源优化利用
缓存管理 数据加载器和缓存释放 支持基于子目录或文件列表的加载/释放
对数据加载器(缓存预加载)和缓存释放(手动驱逐数据)功能升级,除目录外,新增基于文件列表的灵活加载和释放
配额管理 顶级目录和嵌套目录
缓存存储单元 Page (4MB)
使用更小且高效的基于page的缓存存储单元(≤ UFS block 大小,可配置)
读放大<20%
企业版中基于page的缓存将社区版5-10倍的读放大系数降低到不到原先的20%
基于优先级的缓存驱逐 允许管理员为特定目录/文件设置缓存驱逐优先级,高优先级目录/文件即使本应被驱逐也会保留在缓存中
缓存过滤 缓存过滤功能允许管理员设置过滤规则,管理哪些文件会被缓存、是否需要检查以及按照什么频次检查底层文件系统(UFS)的元数据或数据变化
异步缓存驱逐 通过异步驱逐数据提高性能,尽量避免在缓存写入时驱逐数据,管理员可根据缓存容量及最大可缓存page配置异步缓存驱逐策略
CLIENT 和 SDK S3 API 网关 内置于Alluxio Core
S3 API 网关内置于Alluxio Worker进程中,通过移除代理进程,消除了 Client 与 Worker 间的额外线程,同时在Kubernetes环境中降低了由于管理代理进程而导致的部署复杂性
网络传输优化 高性能零拷贝网络传输
高性能零拷贝网络传输零拷贝传输通过消除Protobuf序列化降低了CPU占用,同时使用更优化的内存管理机制,有效缓解了内存不足问题
Python SDK 基于 FSSpec 的原生 Python SDK,强化与主流 AI 框架的集成
安全性 TLS 支持 包含TLS支持,可确保Alluxio组件之间以及Alluxio与底层文件系统(UFS)之间安全通信
CVE 补丁 Alluxio会监控常见漏洞与披露(CVE)记录,并在必要时及时向企业版客户提供补丁
安全审计日志 Alluxio审计日志功能提供对所有数据访问和操作的完整可视化追踪。每一次与Alluxio交互都会被自动记录句括:用户身份与认证信息;执行的操作(读取、写入、删除等);精确时间戳;被访问的资源与路径。
可靠性 可用率 99.95%
高可用性 客户端到UFS的故障转移、文件复制、多可用区高可用性支持
可观测性 指标 支持
仪表盘 支持
产品支持与服务 7x24小时技术支持 支持
紧急修补 支持
专业服务-运维状态检查 支持
服务与最佳实践 支持
部署 操作平台 K8s(1.22+),裸金属机(Linux操作系统,内核版本5.4+)
硬件平台 X86, Arm64
网络协议 TCP/IP、IPoIB
是否支持异构节点 支持
多网卡 支持

Alluxio Enterprise Data 平台的优势

通过Alluxio,您可以将任一计算引擎连接到位于任何位置、任何环境中的任何存储。

无论您的数据位于何处,Alluxio都能统一数据访问,无需将数据移动到单一数据湖或单一云上。

通过使数据更接近计算,Alluxio的数据缓存功能加快了大规模分析和AI工作负载的速度。通过消除副本和最大限度地减少数据移动,Alluxio降低了延迟,节省了带宽和流量成本。

通过Alluxio,您的数据应用程序可以轻松地移植到任何环境中。

Alluxio通过统一的命名空间对数据技术栈进行标准化,跨各类存储系统提供统一的访问模式。应用开发人员无需再考虑数据存储的位置,可以解耦计算和存储,而无需重写应用程序。

有了Alluxio后,您可按成本效益最高的方式部署计算,数据平台将实现真正的多云自由。

Alluxio可帮助节省高达70%的数据基础设施TCO,包括降低网络流量成本和S3 API成本,允许弹性计算,并节省平台运营成本。

通过减少跨网络的数据移动量,云流量成本得以减半,数据基础设施成本变得更加可预测。您不仅可以了解成本产生于哪里,而且还能极大的减少成本。

作为唯一一个能真正实现存算分离的解决方案,Alluxio能让您的数据基础设施具有前瞻性,轻松地适配您的需求和技术栈的发展。

立即开启 AI 和数据价值的全面释放