针对AI和数据分析的Alluxio数据平台

在本地、云、混合或多云环境中，支持无缝访问、管理和运行您的数据和人工智能工作负载

AI/机器学习

海量多模态数据
在自动驾驶的模型训练环节中，数据集通常由数十亿到数百亿个小文件组成，每次训练需要使用数千万到数亿个文件。存储系统面临着管理数十亿到数百亿个小文件的挑战。

跨地域、多云及混合云环境下的数据孤岛严重制约研发效率
智驾企业普遍采用”本地研发+云端训练”的混合架构，而具身智能公司更需要跨机房、跨地域的数据协同。数据在不同存储系统间的迁移和同步消耗大量时间，使得算法迭代周期被迫延长。

现有的存储基础设施在面对高并发读取、低延迟数据流转时表现不佳
在仿真测试、模型训练等关键环节，多个计算任务需要同时访问同一数据集，存储系统很容易成为性能瓶颈，导致昂贵的GPU计算资源闲置浪费。

数据存储成本高，尤其是全闪NAS成本高昂
Robotaxi单台车每天产生4000GB数据量，按照一般云厂商的收费标准，存储一年的成本约35万美元(折合人民币约244万元)。一般自动驾驶企业都会把训练数据分布在多个低性能对象存储集群;在GPU服务器和对象存储之间一般会采用高性能全闪NAS作为缓存系统，从而维持高GPU利用率。但是全闪NAS成本高昂，随着训练数据集不断增长，扩容成本无法承受。

构建高效、统一、可扩展的数据存储底座，已成为突破智驾与具身智能规模化发展瓶颈的核心关键。
只有打通从数据采集、数据预处理、仿真训练等全链路，才能让智能体在真实的物理世界中实现快速、持续进化。

Alluxio 解决方案

Alluxio Enterprise AI 拥有去中心化元数据的分布式系统架构，可消除访问海量小文件（常见于AI 负载）时的性能瓶颈。无论文件大小或数量如何，都能确保具备超越传统架构的无限扩展性。与传统分析不同，分布式缓存是根据AI负载I/O模式量身定制的。此外，还支持分析负载以及从数据预处理、模型训练、模型部署、推理等完整机器学习工作流。

Alluxio Enterprise AI作为分布式缓存层可以添加到由AI计算引擎和数据湖存储组成的已有AI基础设施中。Alluxio 位于计算和存储中间，可以在机器学习工作流中跨模型训练和模型服务工作，从而实现最大速度和最优成本。例如，将PyTorch作为训练和服务引擎， Amazon S3为现有数据湖：

模型训练
当用户训练模型时，PyTorch数据加载器从虚拟本地路径/mnt/alluxio__fuse/training_datasets加载数据集。数据加载器不会直接从S3加载数据，而是从 Alluxio缓存加载。在训练过程中，缓存的数据集将在多个epoch中使用，因此整个训练速度不再受制于访问S3而产生的瓶颈。也就是说，Alluxio通过缩短数据加载来加速训练，消除GPU空闲等待时间，提高GPU利用率。模型训练完成后，PyTorch通过Alluxio将模型文件写入S3。

模型服务
最新训练的模型需要部署到推理集群。多个TorchServe实例同时从S3并发读取模型文件。Alluxio会缓存这些来自S3的最新模型文件，并以低延迟提供给推理集群。因此，最新模型一旦可用时，下游的AI应用即可将其用于推理。

预期训练速度可比使用商业化对象存储快20倍，模型服务速度提升高达10倍，GPU利用率达90%以上，AI 基础设施成本节约高达90%。

Alluxio助力Fireworks AI借助Alluxio在跨多GPU云平台实现1 TB/s+吞吐量

通过引入 Alluxio，Fireworks AI 将原本依赖人工、易出错的模型服务架构，升级为自动化、高性能的现代系统。Alluxio 不仅解决了核心技术瓶颈——冷启动延迟，还在客户体验、成本控制和工程效率等多个维度创造了实际业务价值。

查看更多 →

通过Alluxio优化LLM推理基础设施：实现模型加载10倍提速

Inferless 为企业提供无服务器平台，帮助企业轻松部署定制化的 LLM。LLM 推理基础设施是实现高性能、可扩展部署的核心。

查看更多 →

高达99.57%GPU利用率，Alluxio在MLPerf Storage v2.0基准测试中展现卓越性能

最新的 MLPerf Storage v2.0 测试结果（文末“阅读原文”可跳转查看）显示，Alluxio 通过分布式缓存技术大幅加速了 AI 训练和 checkpointing...

查看更多 →

客户评价

我们利用GPU本身的SSD硬盘来搭建Alluxio集群，并且通过Alluxio的多副本特性来解决跨机器、跨AZ拉取文件的问题，不仅能够对带宽带来极大的减少，还能降低对文件存储的Burst流量，让直接文件读取效率提升了85%。

董浩亮

快手温冷存储负责人

我们已在双集群的百节点部署了Alluxio，整体可用性达到99.95%，缓存命中超过95%+，支持着PB级百亿海量文件的的千卡训练集群规模，为鉴智机器人的大规模AI视觉训练提供了高性能、高可靠、低成本的加速方案，成为自动驾驶技术迭代的“数据引擎”。

黎志明

鉴智机器人数据平台部数据与服务方向

Alluxio的缓存机制通过内存级数据加速，大幅降低了我们数据访问延迟，提升了训练效率，并充分发挥了GPU算力价值，利用率提升超过10%，训练任务端到端用时减少了20-30%。

吉靖

极氪汽车 AI Infra负责人

Alluxio 无论是在多机还是单节点的训练和推理上，完全都可以通过分布式的缓存高效加载我们需要的数据，并且alluxio worker 节点非常容易扩容。目前我们底层的存储如HDFS，Ceph和SeaweedFS都是通过Alluxio进行访问。

董付春

群核前沿技术研究院

Alluxio作为我们基础模型训练架构中的数据加速层,不仅显著提升了训练效率,也为我们的商业化落地提供了坚实的支撑。基础模型训练速度提升高达35%。"这一提升直接转化为更快的产品迭代和更低的研发成本。

Lindon Gao

Dyna Robotics 公司首席执行官

“在引入 Alluxio 之前，我们每周都要花费数小时来手动管理模型分发 pipeline 和冷启动时间。借助 Alluxio 的分布式缓存，我们彻底消除了冷启动延迟，原本需要数小时的任务现在只需几分钟即可完成。该解决方案能无缝适应我们的业务增长，让工程团队得以专注于功能开发，而无需耗费大量精力维护基础设施。”

Akram Bawayah

Fireworks AI 软件工程师

“借助 Alluxio，我们成功为机器学习交易模型打造了必要的低延迟特征存储。它将我们离线特征存储的多表连接查询延迟降低至两位数毫秒级，让我们得以在15分钟的交易窗口内处理超过10万个模型。”

Greg Lindstrom

Blackout Power Trading 机器学习交易副总裁

快速计算丨在混合云上使用Alluxio可为您节省的基础设施投入成本

按场景

AI 机器学习

数据分析

统一命名空间

按行业

自动驾驶

AI 制药

010-82449668

针对AI和数据分析的Alluxio数据平台

AI/机器学习

Alluxio 解决方案

客户评价

填写申请表

顾问与您电话沟通

确认场景后发送软件并指导部署

Alluxio Enterprise Al 3.7 企业版免费试用

填写申请表

顾问与您电话沟通

确认场景后发送软件并指导部署

Alluxio Enterprise Data 3.2 企业版免费试用

在线客服

加入社群