

大规模训练中被忽视的 checkpoint 隐性成本 如今,分布式训练的大量时间并非用于模型迭代,而是消耗在 checkpoint 的写入与等待上。 每个 checkpoint 周期,都需要数百张 GPU 将数百 GB 的模型参数同步写入后端存储。像 PyTorch Distributed Chec

本文分享九识智能在这一演进过程中的实际路径:如何用 Alluxio 替代 PFS 和自研缓存,将 IO 带宽从 30GB/s 突破到 100GB/s 以上,同时降低架构复杂度。

随着 Dyna Robotics 不断扩大其 GPU 集群规模,训练任务开始给对象存储访问路径造成巨大压力

借助 Alluxio S3 写缓存,小对象 PUT 延迟降至约 4-6 毫秒,提升幅度达到 5-8 倍;而大对象写入在低延迟且稳定状态下,每个 Alluxio worker 可持续保持 6GB/s 以上速度,随着 Alluxio worker 的增加,性能几乎呈线性扩展。

通过引入 Alluxio,Fireworks AI 将原本依赖人工、易出错的模型服务架构,升级为自动化、高性能的现代系统。Alluxio 不仅解决了核心技术瓶颈——冷启动延迟,还在客户体验、成本控制和工程效率等多个维度创造了实际业务价值。

企业级数据访问加速平台领导者 Alluxio 宣布上线 Oracle 云市场(Oracle Cloud Marketplace),正式成为 OCI(Oracle Cloud Infrastructure )全球合作伙伴之一。这一里程碑式的合作标志着双方将为共同客户提供更便捷的AI基础设施解决方案,通

Alluxio 是一款云原生数据加速层。随着当今计算性能已远超数据访问能力,Alluxio 旨在弥合高性能 GPU 计算与分布式云存储之间的鸿沟,解决现代 AI 基础设施面临的关键 I/O 和数据搬运挑战。 去中心化对象存储库架构 DORA(Decentralized Object Reposito

云对象存储(Amazon S3,GCS,Azure Blob,阿里云OSS等)本身就是大规模存储的高性价比之选,而加上 Alluxio 这一层“超级加速器”,即可瞬间解锁亚毫秒延迟和线性扩展能力。无需改动现有 S3 架构,你的 S3 就能直接进化为高性能 AI 数据引擎!

AI 应用虽受益于云存储的扩展性和成本优势,却始终受困于延迟问题。为了弥合差距,Alluxio AI 3.7 应势而生。通过面向云存储的超低延迟缓存解决方案,可将高延迟云存储转变为低延迟存储。最新版本通过透明的分布式缓存层,为云存储中 AI 数据提供亚毫秒级首字节响应(TTFB),可全面加速特征库查

Inferless 为企业提供无服务器平台,帮助企业轻松部署定制化的 LLM。LLM 推理基础设施是实现高性能、可扩展部署的核心。

最新的 MLPerf Storage v2.0 测试结果(文末“阅读原文”可跳转查看)显示,Alluxio 通过分布式缓存技术大幅加速了 AI 训练和 checkpointing 工作负载的 I/O 性能,在多种常见的由于 I/O 瓶颈导致 GPU 利用率不足的场景中,成功将 GPU 利用率提升至

近日,AI 与数据加速平台 Alluxio 正式推出 Alluxio Enterprise AI 3.6 版本,该版本在模型分发、checkpoint 写入优化及多租户支持方面实现突破性创新。此次升级将帮助企业显著缩短AI模型部署周期、减少训练时间,并确保在多云环境中的数据无缝访问。 随着模型规模不
京公网安备 11010802040260号