快速计算丨在混合云上使用Alluxio可为您节省的基础设施投入成本 →

010-82449668

EN 中文

Alluxio AI 制药

专为AI/ML设计的解决方案,让您可以随时随地无缝访问、管理和运行AI/ML工作负载。

行业趋势与挑战

趋势与挑战

数据量巨大、而且数据类型多样化,存储成本高昂:制药行业生成的数据量庞大,如基因组学数据、临床试验数据、分子结构数据等。这些数据的类型和格式多种多样,包括文本、图像、时间序列等。AI制药公司一般都会使用对象存储+NAS的方式进行存储,成本较为高昂。使用NAS之后,既增加了架构复杂度,并且额外增加了数据的搬运成本,需要额外的开发和维护。

模型训练主要以海量小文件为主,模型更新频率不高,会有闲置的NVMe的资源:AI制药通常需要海量小文件和随机访问表现,模型训练的过程中会存在闲置的NVMe资源。如果利用闲置的NVMe的资源,成为提高效率、降低成本的关键。

数据安全性和隐私保护:制药数据包含患者敏感信息和专利数据,因此需要高水平的数据安全保护。随着个人数据保护法规的不断加强,制药公司需要确保在使用患者数据时符合相关法规。

Alluxio 解决方案

Alluxio可以和GPU节点混合部署,介于GPU和对象存储之间,利用GPU节点的CPU、NVMe资源,提供以下能力:

  • Alluxio的统一命名空间,Alluxio可以集成不同对象存储、不同bucket向上提供统一的数据视图,实现统一访问。
  • Alluxio + 对象存储 + NVMe,可以实现和高性能NAS存储对等的性能,在性能相当的情况下,节省NAS的费用,起到降本增效的作用,并提供了更好的可扩展性,Alluxio 可以无状态扩展,可以支撑十亿、百亿量级数据的高性能访问需求。
  • Alluxio可以提供更丰富的接口,比如S3 API、RESTful API,可以支撑更丰富的场景。

 使用Alluxio提供统一命令空间下,可以基于海量小文件提供无状态可扩展的分布式缓存。Alluxio部署在GPU节点,介于GPU和对象存储之间,Alluxio+对象存储+NVMe闲置资源就可以达到高性能NAS存储的性能。在性能相当的情况下,可以节省NAS的费用,起到降本增效的作用,同时Alluxio提供了更高的无状态可扩展性,可以支撑十亿、百亿量级的数据高性能访问需求。

方案优势

  • Alluxio基于AI制药行业的特点,为高性能计算和存储提供缓存加速,基于模型训练集群的本地高性能SSD盘资源,通过缓存保障模型训练的数据读取性能;
  • 解绑NAS,使用Alluxio + 对象存储的方式直接支撑模型训练,在保障性能的基础上,降低架构复杂度,减少不必要的ETL代码,能够更实时的感知数据源头的变化;
  • 在训练任务性能相当的情况下,既节省了用户额外购买NAS的成本,又将GPU服务器上空闲的SSD盘利用了起来,从而提高了GPU的利用率
平安壹钱包
【平安壹钱包】大数据架构重构实践
平安壹钱包隶属于中国平安保险(集团)股份有限公司旗下支付机构,是国内专业的多场景支付解决方案服务提供商,移动支付交易规模位居行业第三。
查看更多 →
知乎
【知乎】加速模型训练,基于 Alluxio 构建统一数据接入层
知乎,是一个中文互联网高质量问答社区和创作者聚集的原创内容平台,于2011年1月正式上线。2024年4月,发布与与面壁智能合作自研的“知海图AI”中文大模型。
查看更多 →
蚂蚁
【蚂蚁】Alluxio在蚂蚁集团大规模训练中的应用
蚂蚁集团起步于2004年诞生的支付宝,经过近二十年的发展,已成为世界领先的互联网开放平台。
查看更多 →