很久以前,我曾想成为一名进化生物学家。长话短说,我改变了主意,从博士课程中辍学,转而从事计算机科学的职业。我现在是 Red Hat 的高级软件工程师,在那里我从事各种机器学习和数据科学项目(您可以在我的博客上阅读更多关于我的旅程)。加入 Red Hat 后不久,许多人——包括三位不同的芝加哥大学研究生——向我询问了转型到数据科学职业的问题,所以我开始研究它。
现在投身数据科学的绝妙之处在于,一切(从软件到学习材料再到讨论)都非常开放,因此现在是成为自学者的最佳时机。为了帮助其他考虑从事数据科学职业的人,以下是我在实现这一飞跃中学到的知识。
开放讨论
作为热身,我推荐以下链接,以获取有关数据科学的背景信息
- 成为数据科学家所需的 8 项技能
- 数据架构师、数据分析师、数据工程师和数据科学家之间有什么区别?(对于具有科学背景的人来说,“数据分析师”可能不如“数据科学家”那么令人兴奋)
- 来自 Quora 数据科学家的建议
- /r/MachineLearning 是一个很棒的 subreddit,用于及时了解机器学习领域的最新动态和研究
- 其他值得查看的 subreddit 包括 /r/Statistics 和 /r/DataIsBeautiful(一个数据可视化 subreddit)
总的来说,数据科学社区的成员非常乐于分享他们多样化的经验和背景,这在您选择要追求哪种特定类型的数据科学时非常有帮助。
开放经验
如果您认真考虑从事数据科学职业,那么获得经验比其他任何事情都重要。我知道这个建议对于许多其他领域也适用,但由于数据科学需要如此高水平的数学和统计成熟度,因此很难向潜在雇主表明您知道如何在没有相关工作经验的情况下有效地应用这些复杂的技术。
如果您是一名学生,那么您的首要任务应该是获得实习机会。这将使最终的全职工作搜索变得容易得多。不幸的是,实习也是数据科学家追求中最不“开放”的方面,因为它们通常只对学生开放。但是,还有很多其他开放的机会可以获得经验。例如,您可以尝试开放竞赛,例如 Kaggle 上的竞赛。
还有开源软件开发。为开源项目做贡献和/或将您的个人项目放在 GitHub 上(这是我的)是展示您的数据科学专业知识的好方法。您还可以考虑无偿(“开放的心胸?”)工作。有最喜欢的当地餐厅吗?询问其管理层是否有兴趣获得免费的数据科学咨询。(我认识有人真的这样做了!)
最后,请务必创建并更新 LinkedIn 帐户(这是我的)。LinkedIn 已成为招聘人员极其有价值的工具,因此在那里被发现非常重要。
开放教育
接下来,我最喜欢的部分,开放教育。在过去几年中,出现了一个非常令人兴奋的趋势,即大型开放式在线课程 (又名 MOOC),它们基本上是由顶尖机构和公司(例如,斯坦福大学、哈佛大学、谷歌)在各种主题上提供的完整课程(包括家庭作业和考试)。有许多公司和网站提供 MOOC,但我最喜欢的一些包括:Coursera、edX、Udacity、Saylor 和 Khan Academy。
为了指导您应该学习哪些课程,我整理了一个详细的数据科学课程,并发布了我自己的完整课程历史。您肯定需要涵盖的一些科目包括
开源软件
最后,Opensource.com 的大多数读者都会熟悉的部分:开源软件。开源软件在数据科学领域中非常丰富,但是,就像 Linux 一样,代码的免费和开放并不意味着它不如其专有对应物。事实上,开源解决方案通常是同类最佳的。
数据科学家需要了解的重要开源软件包括
-
编程
- 几乎所有数据科学家职位都需要大规模地清洗和转换数据,而 Python 是必不可少的,因为它通常是此任务的首选语言。重要的 Python 包/库包括:scikit-learn、NumPy、Keras、TensorFlow、Theano、SciPy、pandas 和 StatsModels
- 了解用于统计计算的 R 软件
- 许多数据科学工具都有命令行界面,因此熟悉 *nix 终端可以大大提高工作效率
- 了解 Git 的基础知识,特别是版本控制的总体概念
- 数据库
- 大数据工具
开始入门
这些指南应该能让您在追求数据科学职业生涯的过程中步入正轨。如果您知道任何其他有用的数据科学资源,请务必在评论中分享。
1 条评论