用于大规模时间序列分析的 Riak TS

6 位读者喜欢这篇文章。
Open lightbulbs.

Opensource.com

直到最近,大规模进行时间序列分析仍然成本高昂,几乎完全是大企业的领域。是什么让时间序列成为一个难以解决且昂贵的问题?在 NoSQL 数据库出现之前,扩展以满足不断增长的数据速度和容量通常意味着通过增加 CPU、内存或额外的硬盘来垂直扩展硬件。当与按处理器核心收费的数据库许可模式相结合时,扩展成本对于大多数人来说简直是遥不可及。

幸运的是,开源社区正在迅速普及大规模数据分析,我很幸运能在一家为此领域做出贡献的公司工作。在今年 All Things Open 大会上,我将介绍 Riak TS,这是一个经过优化的键值数据库,用于存储和检索大规模数据集的时间序列数据,并演示如何将其与另外三个开源工具——Python、Pandas 和 Jupyter——结合使用,构建一个完全开源的时间序列分析平台。而且这并不需要花费太长时间。

开始使用 Riak TS 需要了解的基础知识:​

  • 安装:在哪里获取 Riak TS,如何安装它,以及如何随着数据问题规模的增长而扩展它
  • 如何开始使用内置的 riak-shell 和使用 Riak Python Client 的 Python 与 Riak TS 交互
  • 如何在 Riak TS 中创建一个新表并验证它是否已创建
  • 如何使用 riak-shell 和 Python 查询 Riak TS

在我的演讲中,我将从 旧金山湾区自行车共享开放数据集 加载超过 350,000 条记录,以演示 Riak TS 在读取和写入数据方面的速度有多快。我将使用 Python 数据分析库和 Jupyter(每个 Python 程序员都应该知道的两个开源工具)来

  • 查询 Riak TS
  • 将 Riak TS 结果集转换为 Pandas DataFrame
  • 演示 Pandas 的一些内置数据分析功能
  • 使用 matplotlib 库演示如何创建数据可视化

Riak TS 是开源数据库世界中特别令人兴奋的新成员,原因有二。首先,你很难找到一个时间序列数据库,它能够以如此小的运维部门工作量,从一台商品硬件扩展到超过 100 台节点。其次,Riak TS 自动处理数据在节点集群中的分布,将数据复制三遍以确保高可用性,并具有一系列专为最大化正常运行时间而设计的自动化功能。

对于在 Riak TS 之上使用 Java、Python、Ruby、GO、Node.js、PHP、.Net 或 Erlang 开发应用程序,最酷的功能之一是 Riak TS 使用符合 ANSI 标准的 SQL。使用 SQL 使 Riak TS 可供广泛的开发人员访问,更重要的是,也方便了业务数据分析师。

如果您特别有动力开始分析时间序列数据,您可以从 GitHub 获取我的所有 示例代码

User profile image.
Craig Vitter (https://github.com/cvitter/) 是 Basho Tecnologies 的解决方案架构师,该公司是开源分布式数据库 Riak KV 和 Riak TS 的制造商。

评论已关闭。

Creative Commons 许可协议本作品根据 Creative Commons 署名-相同方式共享 4.0 国际许可协议获得许可。
© . All rights reserved.