针对AI和数据分析的Alluxio数据平台

在本地、云、混合或多云环境中，支持无缝访问、管理和运行您的数据和人工智能工作负载

工作原理

Alluxio作为轻量级分布式缓存部署在AI计算工作负载
（训练任务、特征存储库、推理服务器）与AI数据持久存储位置
（如S3云存储、数据湖、NFS）之间。

Alluxio自动将数据缓存至NVMe驱动器，既可利用现有GPU节点的闲置容量，
也可部署在专用CPU节点上——实现本地NVMe级别的数据访问速度。

Alluxio Enterprise AI 平台的优势

针对AI负载 I/O 模式定制的智能缓存

Alluxio 提供分布式缓存，因此AI引擎可以通过访问高性能 Alluxio 缓存, 而非缓慢的数据湖存储来读写数据。其智能缓存策略针对AI工作负载的 I/O 模式量身定制，可为整个AI工作流提供高吞吐量和低延迟。

高效数据加载，无需复制数据

Alluxio 可快速按需加载数据，而非将训练数据复制到本地存储。这消除了数据加载对模型训练速度造成的瓶颈。通过高性能的按需数据访问，可消除数据副本并提高性能。

GPU 利用率高达 90%，最大限度地提高AI平台的投资回报率

Alluxio 可将 GPU 利用率提高至高达90%，使得数据与 GPU 周期同步，并加速模型训练和模型服务。Alluxio 还能使标准化存储实现与专用存储同样的高性能，从而节约成本。

使用Alluxio后
Dataloader中的耗时从 82% 降至 1%
GPU利用率从 17% 提高至 93%

Alluxio Enterprise AI 核心能力一览

架构		去中心化元数据架构应对十亿、百亿规模硬链接的不合理元数据瓶颈导致系统性能大幅下降
扩展性	单集群可支持的对象数	100 亿
扩展性	IO 性能线性扩展	支持
集群管理	Kubernetes Operator	引入 Kubernetes Operator 简化集群部署和管理，确保不同环境中的部署一致性，优化硬件利用率，提供持续监控，并将常规任务自动化：Pod 配置、服务配置、挂载 UFS 卷
	作业调度器（Job Scheduler）	内置于 Alluxio Core 通过将 job scheduler 集成到 Alluxio Core 中，简化部署和管理
	异构 worker 资源	支持具有异构资源配置（CPU, 内存, 网络, 磁盘）的 Alluxio Worker 节点加入同一个 Alluxio 集群，提供更高灵活性
数据访问	统一命名空间	支持
	UFS 集成	云存储：AWS S3、阿里云OSS、腾讯云COS、TOS、GCS（v1/v2）、Azure blob、百度BOS；本地存储：S3兼容存储、HDFS、NAS
	Client 侧 UFS 回退机制	客户端UFS回退功能仅在企业版中可用，当 Alluxio Worker无响应时，Alluxio Client 可无缝访问底层文件系统（UFS）中的数据，从而提供对应用程序的持续性保障
	访问接口	POSIX(FUSE), S3, PythonSDK/FSSpec
	透明数据集集成	透明数据集集成功能使应用程序代码能够通过现有文件系统路径（例如 s3:///）访问Alluxio中的数据
	UFS 读取速率限制器	管理员可通过设置速率限制，控制单个 Alluxio Worker 从UFS 获取数据时的最大带宽，实现资源优化利用
缓存管理	数据加载器和缓存释放	支持基于子目录或文件列表的加载/释放对数据加载器（缓存预加载）和缓存释放（手动驱逐数据）功能升级，除目录外，新增基于文件列表的灵活加载和释放
	配额管理	顶级目录和嵌套目录
	缓存存储单元	Page (4MB) 使用更小且高效的基于page的缓存存储单元（≤ UFS block 大小，可配置）
	缓存存储单元	读放大<20% 企业版中基于page的缓存将社区版5-10倍的读放大系数降低到不到原先的20%
	基于优先级的缓存驱逐	允许管理员为特定目录/文件设置缓存驱逐优先级，高优先级目录/文件即使本应被驱逐也会保留在缓存中
	缓存过滤	缓存过滤功能允许管理员设置过滤规则，管理哪些文件会被缓存、是否需要检查以及按照什么频次检查底层文件系统（UFS）的元数据或数据变化
	异步缓存驱逐	通过异步驱逐数据提高性能，尽量避免在缓存写入时驱逐数据，管理员可根据缓存容量及最大可缓存page配置异步缓存驱逐策略
CLIENT 和 SDK	S3 API 网关	内置于Alluxio Core S3 API 网关内置于Alluxio Worker进程中，通过移除代理进程，消除了 Client 与 Worker 间的额外线程，同时在Kubernetes环境中降低了由于管理代理进程而导致的部署复杂性
	网络传输优化	高性能零拷贝网络传输高性能零拷贝网络传输零拷贝传输通过消除Protobuf序列化降低了CPU占用，同时使用更优化的内存管理机制，有效缓解了内存不足问题
	Python SDK	基于 FSSpec 的原生 Python SDK，强化与主流 AI 框架的集成
安全性	TLS 支持	包含TLS支持，可确保Alluxio组件之间以及Alluxio与底层文件系统(UFS)之间安全通信
	CVE 补丁	Alluxio会监控常见漏洞与披露(CVE)记录，并在必要时及时向企业版客户提供补丁
	安全审计日志	Alluxio审计日志功能提供对所有数据访问和操作的完整可视化追踪。每一次与Alluxio交互都会被自动记录句括:用户身份与认证信息;执行的操作(读取、写入、删除等);精确时间戳;被访问的资源与路径。
可靠性	可用率	99.95%
可靠性	高可用性	客户端到UFS的故障转移、文件复制、多可用区高可用性支持
可观测性	指标	支持
可观测性	仪表盘	支持
产品支持与服务	7x24小时技术支持	支持
	紧急修补	支持
	专业服务-运维状态检查	支持
	服务与最佳实践	支持
部署	操作平台	K8s（1.22+），裸金属机（Linux操作系统，内核版本5.4+）
	硬件平台	X86, Arm64
	网络协议	TCP/IP、IPoIB
	是否支持异构节点	支持
	多网卡	支持

Alluxio Enterprise Data 平台的优势

通过Alluxio，您可以将任一计算引擎连接到位于任何位置、任何环境中的任何存储。

无论您的数据位于何处，Alluxio都能统一数据访问，无需将数据移动到单一数据湖或单一云上。

通过使数据更接近计算，Alluxio的数据缓存功能加快了大规模分析和AI工作负载的速度。通过消除副本和最大限度地减少数据移动，Alluxio降低了延迟，节省了带宽和流量成本。

通过Alluxio，您的数据应用程序可以轻松地移植到任何环境中。

Alluxio通过统一的命名空间对数据技术栈进行标准化，跨各类存储系统提供统一的访问模式。应用开发人员无需再考虑数据存储的位置，可以解耦计算和存储，而无需重写应用程序。

有了Alluxio后，您可按成本效益最高的方式部署计算，数据平台将实现真正的多云自由。

Alluxio可帮助节省高达70%的数据基础设施TCO，包括降低网络流量成本和S3 API成本，允许弹性计算，并节省平台运营成本。

通过减少跨网络的数据移动量，云流量成本得以减半，数据基础设施成本变得更加可预测。您不仅可以了解成本产生于哪里，而且还能极大的减少成本。

作为唯一一个能真正实现存算分离的解决方案，Alluxio能让您的数据基础设施具有前瞻性，轻松地适配您的需求和技术栈的发展。

Alluxio助力Fireworks AI借助Alluxio在跨多GPU云平台实现1 TB/s+吞吐量

通过引入 Alluxio，Fireworks AI 将原本依赖人工、易出错的模型服务架构，升级为自动化、高性能的现代系统。Alluxio 不仅解决了核心技术瓶颈——冷启动延迟，还在客户体验、成本控制和工程效率等多个维度创造了实际业务价值。

了解更多

通过Alluxio优化LLM推理基础设施：实现模型加载10倍提速

Inferless 为企业提供无服务器平台，帮助企业轻松部署定制化的 LLM。LLM 推理基础设施是实现高性能、可扩展部署的核心。

了解更多

高达99.57%GPU利用率，Alluxio在MLPerf Storage v2.0基准测试中展现卓越性能

最新的 MLPerf Storage v2.0 测试结果（文末“阅读原文”可跳转查看）显示，Alluxio 通过分布式缓存技术大幅加速了 AI 训练和 checkpointing 工作负载的 I/O 性能，在多种常见的由于...

了解更多

Alluxio AI助力知乎千卡模型训练

知乎，是一个中文问答社区。通过使用机器学习技术，挖掘平台上海量数据的价值，帮助构建优质内容生产和消费闭环，辅助进行更高效的平台运营。于2011年1月正式上线，以“让人们更好地分享知识、经验和见解，找到自己的解答”为品牌使命。

了解更多

辉羲智能 x Alluxio 应用案例

辉羲智能致力打造创新车载智能计算平台，提供高阶智能驾驶芯片、易用开放工具链及全栈自动驾驶解决方案，助力车企实现优质高效的自动驾驶量产交付，构建低成本、大规模和自动化迭代能力，引领数据驱动时代的高阶智慧出行。

了解更多

望石智慧 x Alluxio 应用案例

望石智慧（StoneWise），成立于2018年，是一家使用人工智能技术驱动新药研发的科技公司，旨在用技术与创新力为医药行业带来新视角，打造世界领先的小分子创新药研发平台。

了解更多

【知乎】加速模型训练，基于 Alluxio 构建统一数据接入层

知乎，是一个中文互联网高质量问答社区和创作者聚集的原创内容平台，于2011年1月正式上线。2024年4月，发布与与面壁智能合作自研的“知海图AI”中文大模型。

了解更多

WeRide x Alluxio 应用案例

文远知行是全球领先的L4级自动驾驶技术研发公司。文远知行成立于2017年，总部位于中国广州，并在北京、上海、南京、郑州、深圳以及美国圣何塞设有研发和运营中心。文远知行文远知行推出国内首个商用Robotaxi服务，并于2019年全面向公众开放。目前，文远知行文远知行在Robottaxi、Mini...

了解更多