当 LinkedIn 发布其第三份年度新兴职业报告时,各地的工程师都表示“阿门”。超过一半的职位列表由工程角色组成,机器人技术等新兴领域首次出现。
但数据科学也表现强劲。该职位显示出 37% 的年增长率,连续第三年位居新兴职业榜榜首。
看看数据科学家所需的核心技能——包括 R、Python 和 Apache Spark——很容易找到与开源的重叠之处。因此,我们对数据科学成为 2019 年 Opensource.com 上最受欢迎的主题之一并不感到惊讶。
我们看到了对各种数据科学主题知识的需求。而我们的作者社区提供了答案。
为了让您愉快地阅读,我们列出了 2019 年排名前 10 的数据科学文章。我们将“排名靠前”定义为 2019 年发布且获得最多页面浏览量的数据科学文章,从最受欢迎的文章开始。
无论您是想使用 Kubernetes 进行批量作业,还是查询 10 年的 GitHub 数据,这些文章都将提升您 2020 年的数据科学水平。
为什么数据科学家喜欢 Kubernetes
Kubernetes 不仅仅是一时流行。这在很大程度上归功于它的多功能性。您可能已经知道 Kubernetes 可以帮助软件开发人员和系统操作员在 Linux 容器中部署应用程序。但是您知道它对数据科学也很有帮助吗?
在为什么数据科学家喜欢 Kubernetes中,我们 2019 年最受欢迎的数据科学文章中,William Benton 和 Sophie Watson 分享了 Kubernetes 如何支持数据科学工作流程。从可重复的批量作业到调试 ML 模型,本文分享了数据科学家可以利用 Kubernetes 的几种方式。
如何使用 Spark SQL:动手教程
想知道如何使用云服务进行大数据分析吗?如何使用 Spark SQL:动手教程使用 Spark DataFrames 展示了如何大规模使用关系数据库。DJ Sarkar 使用真实世界的数据集引导读者完成使用 Spark SQL 的过程。
Sarkar 的教程富含屏幕截图和代码,是他的第一篇关于这个主题的文章的理想续集。他分享了几种可以使用 Spark 来管理从平面文件或数据库中获取的结构化数据的方法。
数据科学项目的 9 个资源
开源中数据科学的增长——从机器学习到神经网络——让许多工程师希望了解更多信息。在数据科学项目的 9 个资源中,Dan Barker 分享了他认为任何想要入门的工程师都必须阅读的书籍、工具和在线课程。
Barker 特别热衷于 Cathy O'Neil 的书数学毁灭武器,该书分享了偏见如何潜入数据以及如何阻止偏见。他还分享了一系列供新手探索的网站。
Python 数据科学入门
随着数据科学技术的兴起,Python 也经历了飞速发展。它现在是最流行的编程语言之一。当与 pandas 和 Seaborn 等库一起使用时,Python 是进入数据科学的理想入门。
在他的Python 数据科学入门中,作为他对Python 入门文章的后续,Seth Kenlon 分享了如何创建 Python 虚拟环境;安装 pandas 和 NumPy;创建示例数据集等等。如果您想了解更多关于数据可视化的信息,本文尤其值得一读。
如何使用 Python 和 Apache Spark 分析日志数据
与我们排名前 10 的列表中的许多文章一样,如何使用 Python 和 Apache Spark 分析日志数据是关于使用 Python 和 Apache Spark 整理数据的早期文章的续集。一旦您学会了如何将数据放入干净、结构化的格式中,DJ Sarkar 就会提供这篇文章来帮助您分析数据。
无论您是想查看前 10 个错误端点还是内容大小统计信息,Sarkar 都会向您展示如何在您的DataFrame中分析几种类型的日志数据。他使用的数据从大小或数量的角度来看都不是“大数据”。但是这些技术可以扩展用于更大的数据集。
如何使用 Python 和 Apache Spark 整理日志数据
如何使用 Python 和 Apache Spark 整理日志数据,DJ Sarkar 的日志数据分析文章的前传,也进入了我们的前 10 名榜单。毫不奇怪,因为大多数组织都使用一系列持续运行的系统和基础设施。数据日志是确保一切有效运行的理想方式。
在本教程中,Sarkar 展示了如何在 NASA 的真实生产日志上使用 Apache Spark。他逐步介绍了使用 Spark 对半结构化日志数据进行大规模日志分析的过程。这包括从设置依赖项到数据整理。
使用 GHTorrent 和 Libraries.io 查询 10 年的 GitHub 数据
您是否知道可以使用 Kibana 或 Elasticsearch API 将 Amazon S3 对象存储数据转换为可搜索的 Elasticsearch 类型集群?同样,您是否了解旨在构建可通过 GitHub API 获得的所有数据的离线版本的项目?
在使用 GHTorrent 和 Libraries.io 查询 10 年的 GitHub 数据中,Pete Cheslock 探讨了如何访问和查询 GHTorrent 数据。您可以使用多种格式执行此操作,包括 CSV 和 Google Big Query。Cheslock 使用后者搜索索引的 GHTorrent 数据,以了解哪些软件语言、许可证和增长率最受 GitHub 项目欢迎。
使用 Python 和数据科学预测 NFL 比赛结果
想提高您的 Python 机器学习技能吗?随着 NFL 季后赛的临近,现在是阅读使用 Python 和数据科学预测 NFL 比赛结果的好时机,该文章分享了一些预测比赛的数据科学技巧。
Christa Hayes 展示了如何发现异常值、预测攻防转换和比赛类型、制作回归图以及训练模型。一旦您阅读了她关于如何格式化数据以进行训练的文章,这篇文章就是理想的下一步。
使用 Python 和 Pandas 分析 Stack Overflow 调查
Stack Overflow 的年度开发者调查是一个技术巨头。近 90,000 名开发者参加了今年的 20 分钟调查,并在身后留下了大量数据。
为了找到某些结果,Moshe Zadka 使用 pandas 库搜索了调查的匿名结果。如果您想过滤 Stack Overflow 的数据集以查找某些详细信息(例如查看有多少开发者使用某些语言或为开源项目做出贡献),Moshe 的使用 Python 和 Pandas 分析 Stack Overflow 调查教程将向您展示如何操作。
4 个 Python 天文学入门工具
对于那些对天文学感兴趣的读者,NumFOCUS 今年在 Opensource.com 上重新发布了其一些博客文章。在4 个 Python 天文学入门工具中,Gina Helfrich 博士分享了您如何参与天文学。
感到害怕?别担心:Helfrich 博士说,Python 包非常先进,以至于构建数据缩减脚本比以往任何时候都容易得多。如果您想使用天文成像数据集,本文将为您指明正确的方向。
您想了解哪些关于数据科学的知识?
数据科学是一个令人兴奋的领域,有无数事物值得探索。如果您想了解有关数据科学的任何信息,请在评论中告诉我们,以便我们尝试在 2020 年涵盖它。或者,如果您愿意,请通过提交一篇关于您最喜欢的数据科学主题的文章,与 Opensource.com 读者分享您的知识。
2 条评论