快速计算丨在混合云上使用Alluxio可为您节省的基础设施投入成本 →

辉羲智能 x Alluxio 应用案例

关于辉羲智能

辉羲智能致力打造创新车载智能计算平台,提供高阶智能驾驶芯片、易用开放工具链及全栈自动驾驶解决方案,助力车企实现优质高效的自动驾驶量产交付,构建低成本、大规模和自动化迭代能力,引领数据驱动时代的高阶智慧出行。作为新型基础设施建设者,辉羲智能创导“数据闭环定义芯片”方法学,依托高性能低功耗的自动驾驶芯片底座,与客户和合作伙伴共建硅上超级数据闭环,持续助推行业标准、赋能产业生态,让更多创新企业和广大消费者受益。目前公司已获多家知名机构投资,并在北京、上海、合肥、杭州、宜宾多地设有研发中心。

 

图片展示

 

遇到的挑战

辉羲智能在使用Alluxio之前,有两个GPU集群,分别是视拓云和商汤云,同时,采购了NAS作为缓存在使用。但是在使用的过程中遇到了以下挑战和困难:

  • NAS作为缓存在使用,但算法用户会经常以高并发的方式从NAS读写数据,导致NAS性能很差;
  • 很多相同的数据集被不同的用户重复拉取到NAS中,造成了大量的数据冗余存储,且没有去重的能力;
  • GPU资源的利用率不高,仅有30%到50%。

 

 

Alluxio的解决方案和价值

辉羲智能经过慎重的考虑,采用了Alluxio的解决方案。如下图所示:

 

在PoC的过程中,主要有以下方面的性能提升:

  • 吞吐量提升明显:Alluxio通过bucket进行读写操作时,相比于NAS和直接访问S3存储桶,展现出显著的吞吐量提升。在FIO测试中,Alluxio的读取速度接近8GB/s,而NAS仅为1.45GB/s;
  • S3数据下载更快:在进行大量数据传输时,Alluxio同样展现出更快的速度。例如,在S3数据下载测试中,Alluxio通过bucket完成了158GB数据的传输,平均速度为61.9MB/s,而NAS的平均速度仅为27.7MB/s。在Alluxio单bucket精细化调优的版本下,平均速度可到达277.2MB/s;
  • 训练耗时更短:在预估完成时间的对比中,Alluxio的表现也更为出色。例如,Alluxio只用了约14小时51分钟,而NAS则需要17小时59分钟,因此能缩短30%的训练时间。

 

总体来说,Alluxio对于辉羲智能主要带来了以下价值:

  • Alluxio作为分布式缓存系统,当数据规模及GPU侧并发访问较大的场景下,Alluxio会比NAS系统具有更好的性能;
  • Alluxio能够利用GPU节点上的现有NVME资源来构建分布式缓存系统,从而加速模型训练,而无需增加新的NAS节点,减轻了潜在的成本压力;
  • Alluxio能够在首次模型训练时自动从对象存储中按需拉取训练数据,无需通过其他方式将数据从对象存储迁移到NAS系统。同时,它还能通过自动缓存淘汰策略灵活管理缓存文件和空间,降低了整体运维成本,无需手动维护或删除旧数据集;
  • 统一命名空间:将seeta cluster 和SenseCore cluser数据进行统一的数据管理,并且形成统一的目录视图,降低跨集群、跨数据中心的数据访问技术实现成本。

吉利汽车 x Alluxio 应用案例

吉利汽车主营乘用车及核心零部件的研发、生产和销售。公司主要拥有三类业务,即乘用车、汽车零部件的研发、生产和销售,以及知识产权许可。公司乘用车业务形成了三个子品牌系列:吉利、几何及领克(合营公司)品牌。

WeRide x Alluxio 应用案例

文远知行是全球领先的L4级自动驾驶技术研发公司。文远知行成立于2017年,总部位于中国广州,并在北京、上海、南京、郑州、深圳以及美国圣何塞设有研发和运营中心。文远知行文远知行推出国内首个商用Robotaxi服务,并于2019年全面向公众开放。目前,文远知行文远知行在Robottaxi、Mini Robotbus、Robotvan等领域提供全方位的产品组合。我们提供网约车、按需交通和城市物流等多种服务。

辉羲智能 x Alluxio 应用案例

辉羲智能致力打造创新车载智能计算平台,提供高阶智能驾驶芯片、易用开放工具链及全栈自动驾驶解决方案,助力车企实现优质高效的自动驾驶量产交付,构建低成本、大规模和自动化迭代能力,引领数据驱动时代的高阶智慧出行。