2020年大数据和数据科学影响世界的 10 种方式

通过回顾 Opensource.com 上 2020 年的 10 篇热门数据科学文章,了解开源数据科学语言、库和工具如何帮助我们更好地了解世界。
69 位读者喜欢这篇文章。
Looking at a map

opensource.com

大数据是开源大放异彩的众多领域之一。 从 Google Analytics 的开源替代方案到 MySQL 中的新功能,2020 年为开源爱好者提供了几种学习大数据技能的方式。

通过回顾去年在 Opensource.com 上发布的 10 篇热门数据科学文章,了解开源数据科学语言、库和工具如何帮助我们更好地了解世界。 

曾几何时,Matplotlib 是在 Python 中制作图表的唯一方法。 近年来,Python 作为数据科学的实际语言的地位改变了这一点。 今天,我们有很多方法可以使用 Python 绘制数据。

在本文中,Shaun Taylor-Morgan 介绍了 在 Python 中绘制数据的七种方法。 如果您是 Matplotlib 用户,请不要担心:它已涵盖在内,以及 Seaborn、Plotly 和 Bokeh。 您会找到每个绘图库的代码和图表,以及 Python 绘图领域的一些新来者:Altair、Pygal 和 pandas。

透明的 Google Analytics 开源替代方案

许多网站使用 Google Analytics 来跟踪其活动指标。 其作为实际工具的地位让一些人想知道是否存在开源选项。 在这篇 Plausible Analytics 概述中,Marko Saric 证明它们确实存在。

如果您想将 Google Analytics 与开源选项进行比较,您会发现 Marko 的文章很有帮助。 如果您是尝试遵守新的数据收集法规(例如 GDPR)的网站管理员,这一点尤其重要。

如果您想了解有关 Plausible 的更多信息,您会在 Marko 的文章中找到指向 Plausible 的 GitHub 代码和路线图的链接。

您需要了解的 5 个 MySQL 功能

在 MySQL 8.0 于 2018 年 4 月发布后,其新功能发布周期更新为每年四次。 尽管部署更加频繁,但许多用户不知道可以节省他们几个小时的 新 MySQL 功能

在 2020 年 3 月的这篇文章中,Dave Stokes 分享了 MySQL 的五个新功能。 它们包括双密码、新 shell 和更好的 SQL 支持。 但请记住,这些更新现在已经快一年了:从那时起,MySQL 中还有很多东西值得探索!

使用 C 和 C++ 进行数据科学

您是否知道 C 和 C++ 都是数据科学项目的强大选择? 它们尤其适合在命令行上运行数据科学程序

在本文中,Cristiano L. Fontana 使用 C99C++11 编写一个使用 Anscombe 四重奏数据集的程序。 分步说明包括从 CSV 文件读取数据、插值数据以及将结果绘制到图像文件。

使用 Python 可视化 COVID-19 预测

COVID-19 大流行将大量数据推到了前台。 在本文中,Anurag Gupta 展示了如何使用 Python 来预测印度各地的 COVID-19 病例和死亡人数

Anurag 介绍了下载和解析数据、选择和绘制印度数据以及创建动画水平条形图的过程。 如果您对完整的脚本感兴趣,您会在本文末尾找到一个链接。

我如何使用 Python 绘制 COVID-19 的全球传播图

如果您想 跟踪 COVID-19 在全球的传播,您可以使用 Python、pandas 和 Plotly 来实现。 在本文中,Anurag Gupta 解释了如何使用它们来清理和可视化原始数据。

Anurag 使用屏幕截图来帮助,分享了如何将数据加载到 pandas DataFrame 中; 清理和修改 DataFrame; 并在 Plotly 中可视化传播。 完整的代码会生成一个漂亮的图表,文章末尾提供了一个链接,可供下载和运行。

使用 PostgreSQL 命令的 3 种方式

在上一篇关于 PostgreSQL 入门的文章中,Greg Pittman 分享了他如何使用 PostgreSQL 命令来 保持他的购物清单更新

无论您是想逐项输入还是整理复杂的表,Greg 都会解释如何创建您需要的命令。 他还展示了如何在准备好打印列表后输出您的列表。

无论您的购物清单有多长,PostgreSQL 命令——尤其是 WHERE 参数——都可以为您的编程之外的生活带来便利。

使用 Python 和 GNU Octave 绘制数据

Python 是数据科学的流行语言,但是如何将其用于特定任务呢? 在本文中,Cristiano Fontana 分享了如何用 Python 和 GNU Octave 编写程序

Cristiano 介绍了从 CSV 文件读取数据、用直线插值数据以及将结果绘制到图像文件的每个步骤。 从打印输出和读取数据到绘制结果,Fontana 的分步指南用 Python 和 GNU Octave 解释了整个过程。

使用 JavaScript 进行快速数据建模

想要一种在几分钟内对数据进行建模的方法吗? 在本文中,Szymon 分享了如何使用少于 15 行 JavaScript 代码来实现它。

它确实很简单:您只需要创建一个类并使用 Lodash JavaScript 库中的 defaultsDeep 函数即可。 Szymon 使用屏幕截图和代码示例展示了这个过程。

它将您的数据保存在一个地方,避免了代码重复,并且可以完全自定义。 如果您想尝试本文中的代码,Szymon 会在文末链接到 CodeSandbox。

如何使用 Apache 工具处理实时数据

今天,我们处理了大量数据,以至于以后存储数据进行分析可能很快就变得不可能了。 处理故障预测和其他上下文敏感数据的团队需要在数据进入数据库之前实时获取此信息。 幸运的是,您可以使用 Apache 工具来做到这一点。

在本文中,Simon Crosby 解释了 Apache Spark(一种统一的分析引擎)如何大规模实时处理大型数据集。 例如,他写道:“Spark Streaming 将数据分解为迷你批处理,每个批处理都由 Spark 模型或某些其他系统独立分析。”

如果 Apache 不是您的菜,Simon 会提供其他开源选项。 Flink、Beam 和 Stanza,以及获得 Apache 许可的 SwimOS 和 Hazelcast,只是您的少数选择。

你想知道什么?

您想了解哪些关于大数据和数据科学的知识? 请在评论中分享您对文章主题的建议。 如果您有一些关于数据科学的有趣内容要分享,请考虑为 Opensource.com 撰写文章

Photograph of Lauren, a white woman with long brown hair, standing in front of a tree wearing a grey coat.
Lauren Maffeo 曾报道全球科技行业并在其中工作。 她的职业生涯始于一名自由记者,从伦敦为 The Guardian 和 The Next Web 报道科技趋势。 如今,她为 Steampunk 担任服务设计师,这是一家以人为本的设计公司,为政府机构构建公民科技解决方案。

评论已关闭。

Creative Commons License本作品已根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.