用于大规模时间序列分析的 Riak TS

图片来源：

Opensource.com

直到最近，大规模进行时间序列分析仍然成本高昂，几乎完全是大企业的领域。是什么让时间序列成为一个难以解决且昂贵的问题？在 NoSQL 数据库出现之前，扩展以满足不断增长的数据速度和容量通常意味着通过增加 CPU、内存或额外的硬盘来垂直扩展硬件。当与按处理器核心收费的数据库许可模式相结合时，扩展成本对于大多数人来说简直是遥不可及。

幸运的是，开源社区正在迅速普及大规模数据分析，我很幸运能在一家为此领域做出贡献的公司工作。在今年 All Things Open 大会上，我将介绍 Riak TS，这是一个经过优化的键值数据库，用于存储和检索大规模数据集的时间序列数据，并演示如何将其与另外三个开源工具——Python、Pandas 和 Jupyter——结合使用，构建一个完全开源的时间序列分析平台。而且这并不需要花费太长时间。

开始使用 Riak TS 需要了解的基础知识：

安装：在哪里获取 Riak TS，如何安装它，以及如何随着数据问题规模的增长而扩展它
如何开始使用内置的 riak-shell 和使用 Riak Python Client 的 Python 与 Riak TS 交互
如何在 Riak TS 中创建一个新表并验证它是否已创建
如何使用 riak-shell 和 Python 查询 Riak TS

在我的演讲中，我将从旧金山湾区自行车共享开放数据集加载超过 350,000 条记录，以演示 Riak TS 在读取和写入数据方面的速度有多快。我将使用 Python 数据分析库和 Jupyter（每个 Python 程序员都应该知道的两个开源工具）来

查询 Riak TS
将 Riak TS 结果集转换为 Pandas DataFrame
演示 Pandas 的一些内置数据分析功能
使用 matplotlib 库演示如何创建数据可视化

Riak TS 是开源数据库世界中特别令人兴奋的新成员，原因有二。首先，你很难找到一个时间序列数据库，它能够以如此小的运维部门工作量，从一台商品硬件扩展到超过 100 台节点。其次，Riak TS 自动处理数据在节点集群中的分布，将数据复制三遍以确保高可用性，并具有一系列专为最大化正常运行时间而设计的自动化功能。

对于在 Riak TS 之上使用 Java、Python、Ruby、GO、Node.js、PHP、.Net 或 Erlang 开发应用程序，最酷的功能之一是 Riak TS 使用符合 ANSI 标准的 SQL。使用 SQL 使 Riak TS 可供广泛的开发人员访问，更重要的是，也方便了业务数据分析师。

如果您特别有动力开始分析时间序列数据，您可以从 GitHub 获取我的所有示例代码。

标签

All Things Open