海量多模态数据
在自动驾驶的模型训练环节中,数据集通常由数十亿到数百亿个小文件组成,每次训练需要使用数千万到数亿个文件。存储系统面临着管理数十亿到数百亿个小文件的挑战
跨地域、多云及混合云环境下的数据孤岛严重制约研发效率
智驾企业普遍采用”本地研发+云端训练”的混合架构,而具身智能公司更需要跨机房、跨地域的数据协同。数据在不同存储系统间的迁移和同步消耗大量时间,使得算法迭代周期被迫延长。
现有的存储基础设施在面对高并发读取、低延迟数据流转时表现不佳。
在仿真测试、模型训练等关键环节,多个计算任务需要同时访问同一数据集,存储系统很容易成为性能瓶颈,导致昂贵的GPU计算资源闲置浪费。
数据存储成本高,尤其是全闪NAS成本高昂
Robotaxi单台车每天产生4000GB数据量,按照一般云厂商的收费标准,存储一年的成本约35万美元(折合人民币约244万元)。一般自动驾驶企业都会把训练数据分布在多个低性能对象存储集群;在GPU服务器和对象存储之间一般会采用高性能全闪NAS作为缓存系统,从而维持高GPU利用率。但是全闪NAS成本高昂,随着训练数据集不断增长,扩容成本无法承受。
我们利用GPU本身的SSD硬盘来搭建Alluxio集群,并且通过Alluxio的多副本特性来解决跨机器、跨AZ拉取文件的问题,不仅能够对带宽带来极大的减少,还能降低对文件存储的Burst流量,让直接文件读取效率提升了85%。
我们已在双集群的百节点部署了Alluxio,整体可用性达到99.95%,缓存命中超过95%+,支持着PB级百亿海量文件的的千卡训练集群规模,为鉴智机器人的大规模AI视觉训练提供了高性能、高可靠、低成本的加速方案,成为自动驾驶技术迭代的“数据引擎”。
Alluxio的缓存机制通过内存级数据加速,大幅降低了我们数据访问延迟,提升了训练效率,并充分发挥了GPU算力价值,利用率提升超过10%,训练任务端到端用时减少了20-30%。
Alluxio 无论是在多机还是单节点的训练和推理上,完全都可以通过分布式的缓存高效加载我们需要的数据,并且alluxio worker 节点非常容易扩容。目前我们底层的存储如HDFS,Ceph和SeaweedFS都是通过Alluxio进行访问。
Alluxio作为我们基础模型训练架构中的数据加速层,不仅显著提升了训练效率,也为我们的商业化落地提供了坚实的支撑。基础模型训练速度提升高达35%。"这一提升直接转化为更快的产品迭代和更低的研发成本。
“在引入 Alluxio 之前,我们每周都要花费数小时来手动管理模型分发 pipeline 和冷启动时间。借助 Alluxio 的分布式缓存,我们彻底消除了冷启动延迟,原本需要数小时的任务现在只需几分钟即可完成。该解决方案能无缝适应我们的业务增长,让工程团队得以专注于功能开发,而无需耗费大量精力维护基础设施。”
“借助 Alluxio,我们成功为机器学习交易模型打造了必要的低延迟特征存储。它将我们离线特征存储的多表连接查询延迟降低至两位数毫秒级,让我们得以在15分钟的交易窗口内处理超过10万个模型。”
京公网安备 11010802040260号