数据科学、机器学习、人工智能和深度神经网络都是当今的热门话题(也是一些关键术语,如果人工智能没有看穿我的企图,它们可能有助于这篇文章的搜索引擎优化)。下面我分享了我在过去几年从事数据科学项目时经常使用的一些资源。我不读很多书,所以我分享了一本书就证明了它的重要性。
这里有足够的资源让即使是最没有经验的工程师也能开始走向数据科学精通之路,在这个数据科学技能在各个层面都需要的时代。这里有一个用于执行工作的工具,一门由著名的斯坦福教授教授的课程,提供真实体验的教程网站,以及一个专门免费向所有人提供最新研究的网站,如果您想了解更多信息,可以使用它。
享受旅程吧!
书籍
数学杀器 (Weapons of Math Destruction),作者:Cathy O’Neil
如果您想能够信任您的人工智能输出,那么您需要阅读这本书。它解释了偏差可能渗透到您的数据和算法中的一些不同途径,以及您可以采取的措施。
在线课程
Andrew Ng 在 Coursera 上提供的免费机器学习课程 在 Coursera 上
这门课程让您可以在几乎没有先验知识的情况下轻松入门机器学习。Andrew 是一位优秀的讲师,他提供了有用的解释来理解复杂的概念。
工具
数据集搜索 (Data Set Search),由 Google 提供(测试版)
如果您想搜索大量公共数据集,包括 kaggle 中的数据集,那么您需要查看 Google 的这个测试版项目。您可以使用许多您已经习惯在 Google 搜索中使用的常见高级搜索语法,例如指定要搜索的站点。当需要数据集时,我会在这里寻找。
Colaboratory,一个免费的 Jupyter Notebook
这个工具提供了一个 Jupyter notebook 实现,允许您像其他 Google Apps 一样与他人协作。如果您资金短缺,或者只是想要一个可以从任何连接互联网的计算机上使用的工具,那么这将对您有很大帮助。我几乎完全使用它,只是因为它帮助我避免了管理本地依赖项的问题。
视频
Andrej Karpathy 的斯坦福课程视频 在 YouTube 上
由 Kartik Subbarao 推荐
这些视频很棒。Andrej 以一种对程序员如何思考问题的方式非常友好的方式,让您对神经网络有一个直观的理解。他还在这个主题上发表了一些很棒的博客文章。
网站
Arxiv.org
如果对数据科学感兴趣,每个人都应该保存这个网站。所有最新的研究都发表在这里,以确保研究人员可以在论文正式发表之前声明他们在发现中的“第一”。在数据科学领域,发展非常迅速,因此保持最新状态以获得最有效和高效的算法非常重要。
Kdnuggets.com
不要被这个网站的外观所迷惑,它有大量高质量的内容。它还会经作者许可转载其他网站的文章。这通常有助于突出那些不一定会获得那么多流量的文章。这是最好的数据科学内容网站之一。
Kaggle.com
任何从事数据科学的人都会知道这个网站。这个网站有很多可用的数据集,但这些数据集主要集中在数据科学竞赛和项目上。这是学习和开始与一些公共数据集交互的好方法。他们有一些项目模板可以帮助您入门并了解所有这些数据科学的东西是如何运作的。
Towardsdatascience.com
整个网站一直是我很好的资源。他们不断提供涵盖数据科学中实践和理论主题的精彩内容。
4 条评论