Spark 在 ApacheCon 上大放异彩

目前没有读者喜欢这个。
On the scene

Opensource.com

ApacheCon 即将到来,在这个大型会议中,将会有一颗闪耀的宝石:一个专门讨论 Spark 的论坛。

Reynold Xin of Spark and Apache, headshot

Reynold Xin 正在组织这个论坛,他与我分享了一些关于 Apache Spark 的宝贵信息:它是什么,为什么它如此特别,以及他们今年有什么新闻要分享。

Spark 论坛 将会有来自 Hive 项目、Pig 项目和 Sqoop 项目的演讲者。此外,还有两个关于 Spark Streaming 的演讲——一个将是入门级的,另一个将以开发者为中心——以及一个关于使用 Spark 进行实际数据科学的演讲。 Xin 说,许多 Apache Software Foundation (ASF) 项目和 Spark 之间有很大的协同作用,因此论坛将是一个了解项目进展情况并分享对项目路线图的想法的机会。

请阅读此采访了解更多信息。请查看 Spark 论坛的日程安排

什么是 Apache Spark?

Spark 是一个快速且通用的分布式数据处理平台。 它拥有超过 500 名贡献者,实际上是开发最活跃的开源大数据项目。 它也是 Apache Software Foundation 中最活跃的项目。

它为什么如此特别?

有三件主要的事情使 Spark 与前几代工具区分开来

1. 易用性:Spark 的设计使分布式数据编程类似于单节点编程。 它的 API 比其他工具更容易使用。 另一个非常重要的因素是,开发人员现在可以使用标准单元测试框架(例如 JUnit、ScalaTests)开箱即用地对他们的 Spark 应用程序进行单元测试。 这确实大大提高了生产力。

2. 速度:Spark 最初旨在解决 Hadoop MapReduce 的性能问题,因此性能优化一直是该项目的持续关注点。 例如,Spark 保持了 100 TB 排序的 当前世界纪录。 许多早期用户最初也被 Spark 超过 Hadoop MapReduce 的性能改进所吸引。

3. 多功能性(或统一性):Spark 非常通用。 您可以在其之上运行许多不同的分布式计算范例,例如 SQL、流式传输、机器学习、图形计算。 这意味着开发人员可以整合他们的 IT 基础设施,并减少他们需要学习和维护的系统数量。 此外,这也使以前不可能实现的应用成为可能,例如 将机器学习算法 轻松地与实时流数据集成。

今年有什么新闻?

今年 Spark 生态系统有两个主要关注点

1. 更加易用:Spark 使工程师更容易进行分布式数据处理,但是我们希望让那些不一定接受过严格计算机科学培训的人(例如数据科学家、统计学家)更容易进行分布式数据处理。 因此,我们正在构建高级 API,例如 DataFrames机器学习管道,以进一步简化分布式数据处理。 我们希望已经熟悉单机工具的用户能够尽快掌握分布式数据处理。

2. 平台 API:随着时间的推移,越来越多的项目在 Spark 之上进行开发,我们将其视为一种独特的运行时,可以支持广泛的环境(例如公共云与私有云、不同的存储系统、数据库系统、NoSQL 存储)。 我们正在努力标准化 Spark 用于与外部系统交互的各种接口,以便其他项目可以舒适地在 Spark 之上构建。

Apache 大数据生态系统如何在 Spark 之上构建并对其进行标准化?

现在大多数 Apache Software Foundation (ASF) 大数据项目都在 Spark 之上构建。 例如,正如您将在 ApacheCon 议程中看到的那样,Hive、Pig 和 Sqoop 现在支持使用 Spark 作为计算引擎。 许多其他项目也提供与 Spark 集成的接口。

请简要介绍一下 Hadoop、Hive、Pig 和 Sqoop 与 Spark 的关系。

Spark 可以在许多不同的环境中运行,但 Spark 也与 Hadoop 很好地集成。 例如,它可以读取 HDFS 中的常见数据格式,并且可以直接在 YARN 资源管理器之上运行。 Hadoop 用户正在转向 Spark 以替换其旧的 MapReduce 数据管道和应用程序。 Hive 将 SQL 编译成 Spark 作业以执行 SQL 查询(尽管不要与 Spark SQL 混淆)。 与 Hive 类似,Pig 将 Pig 脚本编译成 Spark 作业以进行执行。 Sqoop 使用 Spark 连接到各种关系数据库系统以进行 ETL。

有趣的事实?

Spark 的创建者 Matei Zaharia 在中国被称为“马铁之神”。 “马铁”在语音上与“Matei”相同。

ApacheCon 2015
演讲者访谈

本文是 ApacheCon 2015 的 演讲者访谈系列 的一部分。 ApacheCon North America 汇集了开源社区,以了解推动开源未来发展的技术和项目。 该会议于 2015 年 4 月 13 日至 16 日在德克萨斯州奥斯汀举行.

User profile image.
Jen 领导着 Red Hat 数字社区团队的社区经理团队。 她与她的丈夫和女儿 June 和 Jewel 住在罗利。

评论已关闭。

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 许可。
© . All rights reserved.