针对AI和数据分析的Alluxio数据平台

在本地、云、混合或多云环境中，支持无缝访问、管理和运行您的数据和人工智能工作负载

趋势与挑战

数据量巨大、而且数据类型多样化，存储成本高昂：
制药行业生成的数据量庞大，如基因组学数据、临床试验数据、分子结构数据等。这些数据的类型和格式多种多样，包括文本、图像、时间序列等。AI制药公司一般都会使用对象存储+NAS的方式进行存储，成本较为高昂。使用NAS之后，既增加了架构复杂度，并且额外增加了数据的搬运成本，需要额外的开发和维护。

模型训练主要以海量小文件为主，模型更新频率不高，会有闲置的NVMe的资源：
AI制药通常需要海量小文件和随机访问表现，模型训练的过程中会存在闲置的NVMe资源。如果利用闲置的NVMe的资源，成为提高效率、降低成本的关键。

Alluxio AI 制药解决方案

Alluxio可以和GPU节点混合部署，介于GPU和对象存储之间，利用GPU节点的CPU、NVMe资源，提供以下能力：

Alluxio的统一命名空间，Alluxio可以集成不同对象存储、不同bucket向上提供统一的数据视图，实现统一访问。
Alluxio + 对象存储 + NVMe，可以实现和高性能NAS存储可比的性能，在性能相当的情况下，节省高性能NAS的费用，起到降本增效的作用，并提供了更好的可扩展性，Alluxio 可以无状态扩展，可以支撑十亿、百亿量级数据的高性能访问需求。在海量小文件数量扩张的情况下，依然能保持良好的数据访问性能。
Alluxio可以提供更丰富的接口，比如S3 API、RESTful API，可以支撑更丰富的场景。

方案优势

缓存加速

为高性能计算和存储提供缓存加速，基于模型训练集群的本地高性能SSD盘资源，通过缓存保障模型训练的数据读取性能；

解绑 NAS

解绑NAS，使用Alluxio + 对象存储的方式直接支撑模型训练，在保障性能的基础上，降低架构复杂度，减少不必要的ETL代码，能够更实时的感知数据源头的变化

提高GPU利用率

在训练任务性能相当的情况下，既节省了用户额外购买NAS的成本，又将GPU服务器上空闲的SSD盘利用了起来，从而提高了GPU的利用率

客户案例：望石智慧

望石智慧（StoneWise），成立于2018年，是一家使用人工智能技术驱动新药研发的科技公司，旨在用技术与创新力为医药行业带来新视角，打造世界领先的小分子创新药研发平台。借助丰富的药物研发行业认知、创新的数据集成方法和强大的软件与工程能力，公司搭建了以靶点口袋研究、分子生成、超高通量虚拟筛选、理性设计、成药性优化为核心的一体化技术平台，用于提升新药研发中从苗头化合物发现至临床前候选化合物流程中多个关键环节的效率与成功率。

客户评价

我们利用GPU本身的SSD硬盘来搭建Alluxio集群，并且通过Alluxio的多副本特性来解决跨机器、跨AZ拉取文件的问题，不仅能够对带宽带来极大的减少，还能降低对文件存储的Burst流量，让直接文件读取效率提升了85%。

董浩亮

快手温冷存储负责人

我们已在双集群的百节点部署了Alluxio，整体可用性达到99.95%，缓存命中超过95%+，支持着PB级百亿海量文件的的千卡训练集群规模，为鉴智机器人的大规模AI视觉训练提供了高性能、高可靠、低成本的加速方案，成为自动驾驶技术迭代的“数据引擎”。

黎志明

鉴智机器人数据平台部数据与服务方向

Alluxio的缓存机制通过内存级数据加速，大幅降低了我们数据访问延迟，提升了训练效率，并充分发挥了GPU算力价值，利用率提升超过10%，训练任务端到端用时减少了20-30%。

吉靖

极氪汽车 AI Infra负责人

Alluxio 无论是在多机还是单节点的训练和推理上，完全都可以通过分布式的缓存高效加载我们需要的数据，并且alluxio worker 节点非常容易扩容。目前我们底层的存储如HDFS，Ceph和SeaweedFS都是通过Alluxio进行访问。

董付春

群核前沿技术研究院

Alluxio作为我们基础模型训练架构中的数据加速层,不仅显著提升了训练效率,也为我们的商业化落地提供了坚实的支撑。基础模型训练速度提升高达35%。"这一提升直接转化为更快的产品迭代和更低的研发成本。

Lindon Gao

Dyna Robotics 公司首席执行官

“在引入 Alluxio 之前，我们每周都要花费数小时来手动管理模型分发 pipeline 和冷启动时间。借助 Alluxio 的分布式缓存，我们彻底消除了冷启动延迟，原本需要数小时的任务现在只需几分钟即可完成。该解决方案能无缝适应我们的业务增长，让工程团队得以专注于功能开发，而无需耗费大量精力维护基础设施。”

Akram Bawayah

Fireworks AI 软件工程师

“借助 Alluxio，我们成功为机器学习交易模型打造了必要的低延迟特征存储。它将我们离线特征存储的多表连接查询延迟降低至两位数毫秒级，让我们得以在15分钟的交易窗口内处理超过10万个模型。”

Greg Lindstrom

Blackout Power Trading 机器学习交易副总裁

快速计算丨在混合云上使用Alluxio可为您节省的基础设施投入成本

按场景

AI 机器学习

数据分析

统一命名空间

按行业

自动驾驶

AI 制药

010-82449668

针对AI和数据分析的Alluxio数据平台

趋势与挑战

Alluxio AI 制药解决方案

方案优势

缓存加速

解绑 NAS

提高GPU利用率

客户案例：望石智慧

客户评价

填写申请表

顾问与您电话沟通

确认场景后发送软件并指导部署

Alluxio Enterprise Al 3.7 企业版免费试用

填写申请表

顾问与您电话沟通

确认场景后发送软件并指导部署

Alluxio Enterprise Data 3.2 企业版免费试用

在线客服

加入社群