《Spark + Alluxio 解决方案概览》白皮书

快速计算丨在混合云上使用Alluxio可为您节省的基础设施投入成本

010-82449668

EN
中文

首页全部资讯《Spark + Alluxio 解决方案概览》白皮书

Apache Spark是一种支持ETL、SQL查询、机器学习和流计算等各类大数据分析作业的开源计算框架。Spark使用内存数据模型并具有快速处理的特性，因此在数据驱动型企业里得到了普遍应用。

对于一个全球化运营的公司而言，其跨地域的数据平台会面临许多挑战，往往因为以下原因导致数据的价值转化慢、成本高、敏捷性降低等问题：

如今，数据通常存储于本地、云上或者跨多个地理区域的数据湖、数据仓库和对象存储等数据孤岛中。构建统一的、多数据源、并有效支持Spark的数据平台，选取合适的解决方案是有挑战的。
端到端的数据工作流要求Spark与其他计算框架（如Presto、TensorFlow等）一起使用，这就需要在设计数据平台的架构时统筹考虑。此外，许多企业还在使用上一代的数据平台，缺乏云原生能力或者需要经历复杂的云迁移过程。

如果您正在考虑怎么更新你的数据架构来应对这些挑战，Alluxio可以提供帮助。Alluxio与Spark来自同一个实验室——加州大学伯克利分校的AMPLab。Alluxio是连接计算和存储的开源数据编排平台。通过Alluxio赋能Spark，能够统一数据孤岛，提供跨计算框架的数据共享，并且在不同存储环境间进行数据的无缝迁移。

Alluxio与Spark联合部署实现一个可扩展、敏捷和经济有效的方案，打造现代化的数据平台。本文提供了Spark + Alluxio这个技术栈/解决方案的概述，你将会了解到系统架构、实践案例和性能及成本基准测试的结果。

立即下载白皮书，了解更多精彩内容。

快速计算丨在混合云上使用Alluxio可为您节省的基础设施投入成本

按场景

AI 机器学习

数据分析

统一命名空间

按行业

自动驾驶

AI 制药

010-82449668

《Spark + Alluxio 解决方案概览》白皮书

您可能会感兴趣

从 PFS 带宽瓶颈到分布式缓存的演进——Alluxio在九识智能仿真云端调度中的应用

Dyna Robotics 构建统一多云 AI 数据平台，加速基座模型训练

Alluxio S3 写缓存介绍

Alluxio助力Fireworks AI借助Alluxio在跨多GPU云平台实现1 TB/s+吞吐量

所有文章

从 PFS 带宽瓶颈到分布式缓存的演进——Alluxio在九识智能仿真云端调度中的应用

Dyna Robotics 构建统一多云 AI 数据平台，加速基座模型训练

Alluxio S3 写缓存介绍

填写申请表

顾问与您电话沟通

确认场景后发送软件并指导部署

Alluxio Enterprise Al 3.8 企业版免费试用

填写申请表

顾问与您电话沟通

确认场景后发送软件并指导部署

Alluxio Enterprise Data 3.2 企业版免费试用

在线客服

加入社群