010-82449668

EN 中文

Alluxio 助力企业解决分布式云端训练的数据访问难题

为了提高AI场景下模型训练的准确性、加快速度并降低成本,许多公司都逐步开始在云上实施分布式训练的方案。

两个需要重点解决的问题 

01 数据的可访问性 (Data Accessibility):当数据量大且存储在远端服务中时,如何获取训练数据

02 数据的访问性能 (Performance):如何同时保证元数据访问的低延迟和数据访问的高吞吐量

训练中的I/O挑战 

我们在云上进行模型训练时,总是希望能达到高吞吐量和高效率, 但是给机器学习训练供给数据时经常会遇到下述挑战:

低效的串行化的数据准备:如果采用传统方式访问云存储中的数据,往往要花费较长的时间才能准备好训练集群所需数据。

数据访问速度慢:传统方式获取数据和元数据速度较慢,这将直接影响总体训练效率,甚至成为训练瓶颈。

资源管理易出错:训练集群通常只分配了有限的存储容量,如果在训练前完整复制输入数据至训练集群本地存储,配置和维护存储资源往往难度大且容易出错。

数据不一致:如果复制训练数据到训练集群,通常需要额外的人工干预来确保云存储上的数据与训练数据同步。

本白皮书介绍了如何利用 Alluxio 加快数据访问,实现云上分布式训练的端到端性能提速。部署 Alluxio 后,从云存储加载数据,缓存数据和训练都变得更加简单高效。

此书还展示了如何搭建一套端到端加载训练数据性能的测试框架,以及 Alluxio 与其他训练主流数据供给方案的性能测试比对结果。

 

立即下载白皮书,了解更多精彩内容!

MLPerf基准测试冲出黑马,Alluxio新范式引爆AI存储

为了较好地展示 Alluxio 的缓存性能,我们采用了全球首个且唯一的 AI/ML 存储基准测试——MLPerf® Storage 进行验证。MLPerf™ 是影响力最广的国际 AI 性能基准评测,由图灵奖得主大卫•帕特森(David Patterson)联合顶尖学术机构发起成立,并于2023年推出 MLPerf™ Storage 基准性能测试,旨在以架构中立、具有代表性和可重复的方式衡量 AI 工作负载的存储系统性能。

Alluxio在数据索引和模型分发中的核心价值与应用

在当前的技术环境下,搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息,进行模型训练和推理。这一过程需要强大的数据分发能力,尤其是在多个服务器同时拉取同一份数据时,更是考验基础设施的性能。

南方科技大学分享:大数据技术如何赋能大模型训练及开发

南方科技大学是深圳在中国高等教育改革发展的时代背景下创建的一所高起点、高定位的公办新型研究型大学。2022年2月14日,教育部等三部委公布第二轮“双一流”建设高校及建设学科名单,南方科技大学及数学学科入选“双一流”建设高校及建设学科名单。