使用 Apache Superset 进行开源商业智能报告

自 2015 年在 Airbnb Hackathon 上创建以来,Apache Superset 已经发展成为领先的开源 BI 解决方案。
95 位读者喜欢这篇文章。
metrics and data shown on a computer screen

Opensource.com

有人说软件正在吞噬世界,但同样明显的是,开源正在接管软件。

简而言之,开源是构建和分发软件的卓越方法,因为它为如何发现、试用、操作、协作和打包软件提供了重要的保证。 因此,开源已经接管了大多数现代数据堆栈也就不足为奇了:基础设施、数据库、编排、数据处理、AI/ML 等。

回顾过去,我在 2014-17 年期间在 Airbnb 工作时创建 Apache AirflowApache Superset 的主要原因是因为数据领域的供应商未能:

  • 跟上数据生态系统中的创新步伐
  • 赋予想要满足其更高级用例的用户的力量

与开源通常的情况一样,集成和扩展能力始终是我们处理这两个项目架构的核心。

Tableau 的问题

更具体地说,对于 Superset,当时启动该项目的主要驱动因素是 Tableau(当时是我们主要的数据可视化工具)无法原生连接到 Apache DruidTrino/Presto。 这些是我们选择的数据引擎,它们提供了我们需要满足我们的数据用例的属性和保证。

由于当时 Tableau 的“实时模式”以复杂的方式出现故障(我不会深入讨论!),我们被引导使用 Tableau Extracts。 Extracts 在 Airbnb 的数据量下崩溃,围绕非加性指标(例如不同的用户计数)造成了很多挑战,并迫使我们精细地预先计算多个“分组集”,这打破了一些 Tableau 范例并使用户感到困惑。 其次,我们 Tableau 许可数量有限,通常员工数量比我们合同允许的数量多一个数量级,他们想要/需要访问我们的内部数据。 更不用说,对于一家云原生公司来说,当时 Tableau 以 Windows 为中心的方法对团队来说效果不佳。

上述一些前提此后发生了变化,但开源的力量以及构建开源的核心原则只会增长。 在这篇博客文章中,我将解释为什么商业智能的未来是开源的。

开源的好处

如果我只能用一个词来描述为什么现在是组织采用开源 BI 的好时机,那么这个词就是自由。 从自由原则出发,组织还可以获得一些更具体的超能力:

  • 定制、扩展和集成的能力
  • 社区的力量
  • 避免供应商锁定

扩展、定制和集成

Airbnb 希望将 Dataportal 和 Minerva 等内部工具与仪表板工具集成,以实现其组织内的数据民主化。 由于 Superset 是开源的,并且 Airbnb 积极地为该项目做出贡献,因此他们可以相对轻松地使用内部组件来增强 Superset。

在可视化方面,像 Nielsen 这样的组织创建新的可视化效果,并在其 Superset 环境中部署它们。 他们更进一步,授权他们的工程师为 Superset 的可定制性和可扩展性做出贡献。 Superset 平台现在足够灵活,任何人都可以构建他们 自己的自定义可视化插件,这是市场上无与伦比的优势。

许多人报告说,他们在更广泛的社区中使用随 Superset 提供的丰富的 REST API,从而可以对平台的所有方面进行完全的编程控制。 鉴于用户可以在 Superset 中执行的几乎所有操作都可以通过 API 完成,因此在 Superset 内部和周围自动化流程的可能性是无限的。

围绕集成主题,Superset 社区的成员通过提交代码和文档贡献,增加了对 30 多个数据库的支持(并且还在增长!)。 由于核心贡献者押注于正确的开源组件(SQLAlchemy 和 Python DB-API 2.0),因此 Superset 社区既给予又从更广泛的 Python 社区获得。

社区的力量

开源社区由一群有类似需求的人组成。 该小组有权为共同利益做出贡献。 另一方面,供应商倾向于关注其最重要的客户。 开源是一种根本不同的模式,它更具协作性和无摩擦性。 由于这种根本分散的模式,社区对供应商主导的产品所面临的变更具有很强的适应能力。 随着贡献者和组织的来来去去,社区依然存在!

社区的核心是活跃的贡献者,他们通常以动态精英管理的方式运作。 网络效应吸引了注意力和人才,社区欢迎并为新来者提供指导,因为他们的目标是一致的。 随着 Gitlab 和 Github 等平台的兴起,软件非常独特,因为来自世界各地的工程师和开发人员似乎能够以最小的开销聚集在一起并协同工作。 这些动态已被广泛理解和接受,这是一种破坏性的范式转变,改变了人们协作构建现代软件的方式。

Growth in Monthly Unique Contributors

每月独立贡献者的增长

除了项目核心的软件之外,动态社区还以各种方式做出贡献,从而提供更多价值。 以下是一些示例:

  • 丰富且最新的文档
  • 示例用例和推荐信,通常以博客文章的形式
  • 错误报告和错误修复,有助于稳定性和质量
  • 不断增长的在线知识库和常见问题解答
  • 操作视频和会议讲座
  • 论坛和 聊天平台上的爱好者和专家的实时支持网络
  • 核心贡献者在动态邮件列表中提出和辩论复杂问题
  • 反馈循环,建议功能并影响路线图的方式

避免锁定

最近,Atlassian 收购了专有 BI 平台 Chart.io,开始缩减 Chart.io 团队,并宣布他们打算关闭该平台。 他们的客户现在必须争先恐后地为他们的分析资产找到一个新的家,而他们现在必须重建这些资产。

Chart.io Shutting Down

Chart.io 关闭

这并不是一种新现象。 鉴于 BI 市场的成熟和动态,整合在过去几年中一直在加速:

  • Tableau 被 Salesforce 收购
  • Looker 被 Google Cloud 收购
  • Periscope 被 Sisense 收购
  • Zoomdata 被 Logi Analytics 收购

虽然整合可能会继续,但当您的 BI 平台是开源时,这些担忧不会出现。 如果您是自托管的,那么您基本上可以免受供应商锁定的影响。 如果您选择与商业开源软件 (COSS) 合作,您应该拥有来自替代供应商的一系列选择,以便在市场上聘请专家,一直到拥有所有权并自行运营该软件。

例如,如果您使用 Apache Airflow 服务来满足您的 Airflow 需求,而您的云提供商决定关闭该服务,您将有一系列可行的选择:

  • 选择并迁移到该领域的另一家服务提供商,例如 Apache Airflow 专家 Astronomer
  • 聘请或咨询 Airflow 人才,他们可以帮助您进行控制。 社区培养了大量了解并热爱 Airflow 的专业人士,他们可以帮助您的组织。
  • 学习并采取行动。 也就是说,取得控制权并利用社区的惊人资源来运行您自己的软件(Docker、Helm、k8s 运算符等)。

即使在 Preset,我们提供 Superset 的云托管版本,我们也不会 fork Superset 代码,而是运行每个人都可以使用的相同 Superset。 在 Preset 云中,您可以自由地导入和导出数据源、图表和仪表板。 这不是 Preset 独有的。 许多供应商明白,“无锁定!” 是其价值主张不可或缺的一部分,并且有动力提供围绕此的明确保证。

为您的数据开源

开源以最佳的方式具有颠覆性,它提供了自由以及在采用软件时真正重要的一系列保证。 这些保证完全适用于商业智能领域。 在商业智能方面,Apache Superset 已经成熟到一个程度,使其成为优于任何专有解决方案的引人注目的选择。 自 2015 年在 Airbnb 黑客马拉松上创建以来,该项目确实取得了长足的进步。 亲自尝试一下,发现开源 BI 独有的特性和保证的组合。 要了解更多信息,请访问并加入我们不断壮大的社区

接下来阅读
标签
Avatar
Apache Airflow 和 Apache Superset 的原始创建者,Preset 的创始人兼首席执行官

评论已关闭。

Creative Commons License本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。
© . All rights reserved.