Alluxio AI 制药

专为AI/ML设计的解决方案,让您可以随时随地无缝访问、管理和运行AI/ML工作负载。

行业趋势与挑战

趋势与挑战

数据量巨大、而且数据类型多样化,存储成本高昂:制药行业生成的数据量庞大,如基因组学数据、临床试验数据、分子结构数据等。这些数据的类型和格式多种多样,包括文本、图像、时间序列等。AI制药公司一般都会使用对象存储+NAS的方式进行存储,成本较为高昂。使用NAS之后,既增加了架构复杂度,并且额外增加了数据的搬运成本,需要额外的开发和维护。

模型训练主要以海量小文件为主,模型更新频率不高,会有闲置的NVMe的资源:AI制药通常需要海量小文件和随机访问表现,模型训练的过程中会存在闲置的NVMe资源。如果利用闲置的NVMe的资源,成为提高效率、降低成本的关键。

数据安全性和隐私保护:制药数据包含患者敏感信息和专利数据,因此需要高水平的数据安全保护。随着个人数据保护法规的不断加强,制药公司需要确保在使用患者数据时符合相关法规。

Alluxio 解决方案

Alluxio可以和GPU节点混合部署,介于GPU和对象存储之间,利用GPU节点的CPU、NVMe资源,提供以下能力:

  • Alluxio的统一命名空间,Alluxio可以集成不同对象存储、不同bucket向上提供统一的数据视图,实现统一访问。
  • Alluxio + 对象存储 + NVMe,可以实现和高性能NAS存储对等的性能,在性能相当的情况下,节省NAS的费用,起到降本增效的作用,并提供了更好的可扩展性,Alluxio 可以无状态扩展,可以支撑十亿、百亿量级数据的高性能访问需求。
  • Alluxio可以提供更丰富的接口,比如S3 API、RESTful API,可以支撑更丰富的场景。

 使用Alluxio提供统一命令空间下,可以基于海量小文件提供无状态可扩展的分布式缓存。Alluxio部署在GPU节点,介于GPU和对象存储之间,Alluxio+对象存储+NVMe闲置资源就可以达到高性能NAS存储的性能。在性能相当的情况下,可以节省NAS的费用,起到降本增效的作用,同时Alluxio提供了更高的无状态可扩展性,可以支撑十亿、百亿量级的数据高性能访问需求。

方案优势

  • Alluxio基于AI制药行业的特点,为高性能计算和存储提供缓存加速,基于模型训练集群的本地高性能SSD盘资源,通过缓存保障模型训练的数据读取性能;
  • 解绑NAS,使用Alluxio + 对象存储的方式直接支撑模型训练,在保障性能的基础上,降低架构复杂度,减少不必要的ETL代码,能够更实时的感知数据源头的变化;
  • 在训练任务性能相当的情况下,既节省了用户额外购买NAS的成本,又将GPU服务器上空闲的SSD盘利用了起来,从而提高了GPU的利用率
COUPANG
通过Alluxio优化LLM推理基础设施:实现模型加载10倍提速
Inferless 为企业提供无服务器平台,帮助企业轻松部署定制化的 LLM。LLM 推理基础设施是实现高性能、可扩展部署的核心。
查看更多 →
76911ebc6101db852c18ab15c9446eb4
高达99.57%GPU利用率,Alluxio在MLPerf Storage v2.0基准测试中展现卓越性能
最新的 MLPerf Storage v2.0 测试结果(文末“阅读原文”可跳转查看)显示,Alluxio 通过分布式缓存技术大幅加速了 AI 训练和 checkpointing...
查看更多 →
知乎
Alluxio AI助力知乎千卡模型训练
知乎,是一个中文问答社区。通过使用机器学习技术,挖掘平台上海量数据的价值,帮助构建优质内容生产和消费闭环,辅助进行更高效的平台运营。 于2011年1月正式上线,以“让人们更好地分享知识、经验和见解,找到自己的解答”为品牌使命。
查看更多 →