针对AI和数据分析的Alluxio数据平台

在本地、云、混合或多云环境中,支持无缝访问、管理和运行您的数据和人工智能工作负载

趋势与挑战

* 海量多模态数据:在自动驾驶的模型训练环节中,数据集通常由数十亿到数百亿个小文件组成,每次训练需要使用数千万到数亿个文件。存储系统面临着管理数十亿到数百亿个小文件的挑战

* 跨地域、多云及混合云环境下的数据孤岛严重制约研发效率。智驾企业普遍采用”本地研发+云端训练”的混合架构,而具身智能公司更需要跨机房、跨地域的数据协同。数据在不同存储系统间的迁移和同步消耗大量时间,使得算法迭代周期被迫延长。

*现有的存储基础设施在面对高并发读取、低延迟数据流转时表现不佳。在仿真测试、模型训练等关键环节,多个计算任务需要同时访问同一数据集,存储系统很容易成为性能瓶颈,导致昂贵的GPU计算资源闲置浪费。

* 数据存储成本高,尤其是全闪NAS成本高昂:Robotaxi单台车每天产生4000GB数据量,按照一般云厂商的收费标准,存储一年的成本约35万美元(折合人民币约244万元)一般自动驾驶企业都会把训练数据分布在多个低性能对象存储集群;在GPU服务器和对象存储之间一般会采用高性能全闪NAS作为缓存系统,从而维持高GPU利用率。但是全闪NAS成本高昂,随着训练数据集不断增长,扩容成本无法承受。

构建高效、统一、可扩展的数据存储底座,已成为突破智驾与具身智能规模化发展瓶颈的核心关键。只有打通从数据采集、数据预处理、仿真训练等全链路,才能让智能体在真实的物理世界中实现快速、持续进化。

Edit Content

AI场景

显著优化从数据预处理、模型训练到模型部署等整个数据管道的I/O效率

Alluxio可以和GPU节点混合部署,介于GPU和对象存储之间,利用GPU节点的CPU、NVMe资源,提供以下能力:
  • 统一数据视图:Alluxio能够整合分布在对象存储、HDFS等不同存储系统中的数据,提供一个统一的访问入口 。这简化了数据管理,让算法和标注人员无需关心数据的具体物理位置。
  • 突破数据读取瓶颈:训练框架通过Alluxio提供的POSIX、S3或Python API接口访问数据 。Alluxio将训练数据集缓存在GPU集群本地,实现高吞吐、低延迟的数据供给,从而将GPU利用率提升至90%以上,避免昂贵GPU因等待数据而闲置 。
  • 加速Checkpoint:模型训练需要定期保存检查点,这是一个写入密集型的操作。Alluxio可以对此进行优化:先将Checkpoint以内存或磁盘速度写入本地缓存,然后异步上传到远端持久化存储。这种方式可以大幅缩短GPU等待写入完成的时间,加快训练迭代速度 。
  • 加速模型分发:Alluxio可以作为高性能的模型分发层,将训练好的模型文件缓存到推理服务器附近。与直接从小文件众多的对象存储中加载模型相比,通过Alluxio模型部署速度最高可达对象存储的10倍以上 。

资料下载

《为企业生产环境下的AI负载选择合适的架构》

《Presto优化宝典》进阶版

大模型制胜宝典——解密AI高效数据访问策略