数据量巨大、而且数据类型多样化,存储成本高昂:
制药行业生成的数据量庞大,如基因组学数据、临床试验数据、分子结构数据等。这些数据的类型和格式多种多样,包括文本、图像、时间序列等。AI制药公司一般都会使用对象存储+NAS的方式进行存储,成本较为高昂。使用NAS之后,既增加了架构复杂度,并且额外增加了数据的搬运成本,需要额外的开发和维护。
模型训练主要以海量小文件为主,模型更新频率不高,会有闲置的NVMe的资源:
AI制药通常需要海量小文件和随机访问表现,模型训练的过程中会存在闲置的NVMe资源。如果利用闲置的NVMe的资源,成为提高效率、降低成本的关键。
Alluxio可以和GPU节点混合部署,介于GPU和对象存储之间,利用GPU节点的CPU、NVMe资源,提供以下能力:
为高性能计算和存储提供缓存加速,基于模型训练集群的本地高性能SSD盘资源,通过缓存保障模型训练的数据读取性能;
解绑NAS,使用Alluxio + 对象存储的方式直接支撑模型训练,在保障性能的基础上,降低架构复杂度,减少不必要的ETL代码,能够更实时的感知数据源头的变化
在训练任务性能相当的情况下,既节省了用户额外购买NAS的成本,又将GPU服务器上空闲的SSD盘利用了起来,从而提高了GPU的利用率
望石智慧(StoneWise),成立于2018年,是一家使用人工智能技术驱动新药研发的科技公司,旨在用技术与创新力为医药行业带来新视角,打造世界领先的小分子创新药研发平台。借助丰富的药物研发行业认知、创新的数据集成方法和强大的软件与工程能力,公司搭建了以靶点口袋研究、分子生成、超高通量虚拟筛选、理性设计、成药性优化为核心的一体化技术平台,用于提升新药研发中从苗头化合物发现至临床前候选化合物流程中多个关键环节的效率与成功率。
我们利用GPU本身的SSD硬盘来搭建Alluxio集群,并且通过Alluxio的多副本特性来解决跨机器、跨AZ拉取文件的问题,不仅能够对带宽带来极大的减少,还能降低对文件存储的Burst流量,让直接文件读取效率提升了85%。
我们已在双集群的百节点部署了Alluxio,整体可用性达到99.95%,缓存命中超过95%+,支持着PB级百亿海量文件的的千卡训练集群规模,为鉴智机器人的大规模AI视觉训练提供了高性能、高可靠、低成本的加速方案,成为自动驾驶技术迭代的“数据引擎”。
Alluxio的缓存机制通过内存级数据加速,大幅降低了我们数据访问延迟,提升了训练效率,并充分发挥了GPU算力价值,利用率提升超过10%,训练任务端到端用时减少了20-30%。
Alluxio 无论是在多机还是单节点的训练和推理上,完全都可以通过分布式的缓存高效加载我们需要的数据,并且alluxio worker 节点非常容易扩容。目前我们底层的存储如HDFS,Ceph和SeaweedFS都是通过Alluxio进行访问。
Alluxio作为我们基础模型训练架构中的数据加速层,不仅显著提升了训练效率,也为我们的商业化落地提供了坚实的支撑。基础模型训练速度提升高达35%。"这一提升直接转化为更快的产品迭代和更低的研发成本。
“在引入 Alluxio 之前,我们每周都要花费数小时来手动管理模型分发 pipeline 和冷启动时间。借助 Alluxio 的分布式缓存,我们彻底消除了冷启动延迟,原本需要数小时的任务现在只需几分钟即可完成。该解决方案能无缝适应我们的业务增长,让工程团队得以专注于功能开发,而无需耗费大量精力维护基础设施。”
“借助 Alluxio,我们成功为机器学习交易模型打造了必要的低延迟特征存储。它将我们离线特征存储的多表连接查询延迟降低至两位数毫秒级,让我们得以在15分钟的交易窗口内处理超过10万个模型。”
京公网安备 11010802040260号