010-82449668

EN 中文

Alluxio vs. FSx Lustre:
更快、更具扩展性的AI文件系统

Alluxio为模型训练和推理的冷启动提供了更高的吞吐,同时还降低了
推理的延迟——所有这些都采用了更灵活、更具成本效益的多云架构。

Alluxio 加速的领先企业

为什么选择Alluxio而不是FSx

通过对数据湖(例如 AWS S3)的透明、高速访问来加速 AI 工作负载。有关详细信息,请参阅性能基准。

与 FSx 相比,端到端训练和模型部署速度显著加快

客户报告称,与FSx相比,Alluxio的训练时间缩短了40%+,模型部署时间缩短了80%+。

AI 工作负载的 I/O 性能提高 4-11 倍

Alluxio旨在优化AI工作负载的I/O性能。Alluxio的集群总性能随着部署的Alluxio Worker数量而线性增加。单个Alluxio worker提供高达43.48 GB/s的读取吞吐量,利用了87%的400 Gbps网络管道。

最大化 GPU 利用率,达到 90%+

Alluxio 将数据缓存在GPU节点内,形成缓存资源池,可最大限度地提高训练和推理工作负载的吞吐量并降低延迟,通过减少 GPU 空闲时间和 I/O 瓶颈,将 GPU 利用率提高到 90% 以上(例如,在 MLPerf 测试中实际达到 96%)。它可以利用 GPU 节点上的闲置 CPU、内存和存储,而无需额外的硬件,比 FSx Lustre 更具成本优势。

显著节省成本

在与FSx的正面比较中,Alluxio仅在存储成本上就节省了50-80%。由于AI工作负载需要大量IOPS,Alluxio能为客户节省更多成本。因为与FSx不同,Alluxio不对IOPS收费。Alluxio通过消除冗余数据移动和过度配置GPU以适应慢冷启动的需要,进一步降低了基础设施成本。

可扩展性高达 100 亿个文件,并实现线性性能提升

Alluxio可将AI工作负载扩展到每个集群100亿个文件,大大超过了FSx Lustre低于10亿个文件的典型限制。与FSx的集中式元数据方法不同,Alluxio的DORA架构消除了瓶颈,实现了水平扩展和线性性能提升。该能力支持跨数千个 GPU 进行训练,并可高效处理 AI 管道中的数十亿个小文件。

操作简单,易用使用

Alluxio的Kubernetes原生operator简化了容器化环境中的部署,这与需要手动设置的FSx不同。 Alluxio透明的数据访问支持与现有应用程序和存储的零代码集成,消除了来自AWS S3/Blob的手动缓存和复杂的调整,从而加快了价值变现的时间,并减少了运营开销。Alluxio 支持多种 API,包括 POSIX (FUSE)、S3、HDFS 和 Python,实现跨 AI 管道的无缝集成。

原生多云和混合云功能

Alluxio 在混合和多云环境中提供计算和存储之间的透明抽象,这与 FSx 不同,FSx 仅限于 AWS 生态系统。 Alluxio 的统一命名空间提供对 AWS S3、Azure Blob、HDFS 和 Google Cloud Storage 等存储系统的即时全局访问,从而简化数据管理并在任何有 GPU 的地方实现 AI 训练——即使是跨区域和跨云的孤岛数据。

性能基准

Alluxio的DORA架构专为优化AI模型训练和模型部署的性能而设计,
与FSx等并行文件系统相比,性能提高了4-11倍。

模型训练

Alluxio 与 FSx Lustre - 读吞吐

图 1:读吞吐 - 模拟训练数据集读取

Alluxio 与 FSx Lustre - 写吞吐

图 2:写吞吐 - 模拟chekpoint写入

模型部署

Alluxio vs. FSx Lustre

图 3:Alluxio(浅蓝色线)的模型部署速度提高了 2 ~ 4 倍。

启用客户端内存池的 Alluxio vs. FSx Lustre

图 4:当将单个模型分布到同一节点上的多个 GPU 时,Alluxio 可以启用“客户端内存池”(AI 3.6 中的新功能)并提供高达 32GiB/s 的读取吞吐量,这比正常情况快 3 倍,并打破了网络限制。

*测试环境参考:
Alluxio
- 版本/规格:Alluxio Enterprise AI 3.6 (50TB 缓存)
- 测试环境:1 个 FUSE (C5n.metal,100Gbps 网络) 和 1 个 Worker (i3en.metal)FSx
FSx Lustre
- 版本/规格:24TB (类型:1000MiB/s/TiB)
测试环境:1 个 FUSE (C5n.metal,100Gbps 网络)

客户评价

“与并行文件系统相比,新的分布式缓存架构提高了模型训练速度,降低了存储成本,提高了跨集群的 GPU 利用率,降低了运营开销,实现了训练工作负载可移植性,并提供了 40% 更佳的 I/O 性能。”

Alluxio改变了游戏规则,将模型加载时间提高了3到6倍,并为我们的无服务器GPU计算服务提供了关键的多云敏捷性。通过Alluxio解决基本的I/O挑战,加载LLM权重的吞吐量可以提高10倍,接近硬件极限(千兆字节/秒吞吐量)。借助Alluxio,我们可以优化我们的基础设施,使公司能够以前所未有的速度和效率部署定制化的LLM。

常见问题

Alluxio是像Amazon FSx一样的存储系统吗?

不,Alluxio不是像Amazon FSx for Lustre的存储系统。Alluxio是一个AI规模的分布式缓存平台,为AI工作负载带来数据本地性和水平可扩展性。Alluxio不提供持久存储,相反,Alluxio具有Under File System的概念,可以利用您现有的数据湖和商用存储系统。相比之下,Amazon FSx for Lustre 是一种传统的并行文件系统,仅限于 AWS 生态,通常缺乏高级缓存或跨存储类型的联邦数据访问能力。

为什么选择Alluxio而不是FSx?

Alluxio专为以FSx for Lustre无法做到的方式加速AI工作负载而构建。与FSx相比,Alluxio提供:

  • 通过消除数据IO延迟,加快端到端模型训练和部署
  • 跨计算集群和存储层可线性扩展的高性能
  • 最大限度地减少由于数据加载带来的GPU空闲时间,从而提高 GPU 利用率降低总拥有成本 — 无需 IOPS 费用,并更有效地利用存储
  • 无缝支持混合云和多云环境,而不仅仅是 AWS

无论您是在做模型训练、推理还是检索增强生成(RAG),Alluxio都能提供智能缓存和对AWS S3和其他数据湖的数据零拷贝访问,而不受FSx的限制。

我可以在Kubernetes环境中使用Alluxio吗?

当然可以,Alluxio提供了一个Kubernetes原生operator,简化了容器化AI平台的部署和集成。与 FSx 不同,它专为在云原生环境中顺利运行而构建。

我需要修改我的应用程序才能使用Alluxio吗?

不需要,Alluxio通过POSIX(FUSE)、S3、HDFS和Python API提供透明的数据访问,因此您可以将其与现有应用程序集成,而无需更改任何代码。

我需要拥有混合云或多云环境才能从Alluxio中获益吗?

并不是,与 FSx 相比,即使您都在单个云(例如 AWS)中,您仍然可以从性能提升和成本节约中受益。

Alluxio的定价与Amazon FSx for Lustre的定价相比如何?

在与FSx的比较中,Alluxio仅存储成本就可以节省50-80%。此外,与FSx不同,Alluxio不对IOPS收费,而IOPS费用可能很高。

Alluxio的主要工作负载和行业是什么?

Alluxio专为AI工作负载而设计,包括生成式人工智能、LLM训练和推理、多模态、智能驾驶系统和机器人技术、agentic系统等。Alluxio为金融科技、智能驾驶、具身智能、机器人技术、推理即服务、社交媒体内容平台、企业AI等各行各业的人工智能平台提供支持。