我们都听说过大数据;在过去的几年里,许多公司投资于 Hadoop、NoSQL 和数据仓库,以收集和存储海量的新数据。即使是基于像 Hadoop 这样的开源平台,这些投资对于拥有新硬件、新员工以及花费无数人时来实施新系统和程序的大公司来说,也很容易达到数百万美元。
现在是这些投资获得回报的时候了。
实现这一目标的方法是数据科学,即从数据中提取知识。它不仅仅是对数据进行制表和报告;数据科学结合了计算机科学、统计分析以及对业务需求的敏锐理解,从而区分相关性和因果关系,并预测未来的结果和风险。据 TheNextWeb 报道,数据科学家正在“改变商业智能的面貌”。而且,数据可用性的提高使得数据科学对于产品开发至关重要,并创造和管理对于自动化系统来说过于复杂的创新,尤其是在隐私问题至关重要的世界中。
因此,公司正在大规模招聘数据科学家。根据招聘跟踪网站 Indeed.com 的数据,自 2011 年初以来,对数据科学家的职位发布需求猛增。虽然近几个月大部分增长都体现在数据科学技能方面,因为数据科学家承担了专门的职位头衔。与此同时,数据科学家仍然拥有令人印象深刻的薪资:根据 O’Reilly Media 最新的《数据科学薪资调查》,全球平均年薪为 98,000 美元,美国为 144,000 美元。

由于需求如此强劲,薪资如此之高,对数据科学家的招聘竞争非常激烈,这也就不足为奇了。因此,以前依赖传统专有平台进行统计分析的公司现在正在采用一种新的替代方案,开源 R 语言。到目前为止,全球已有超过两百万的数据科学家和统计学家选择了它。
R 语言是一个用于统计数据分析的开源软件平台。R 项目始于 1993 年,是新西兰两位统计学家 Ross Ihaka 和 Robert Gentleman 创建的一个项目,旨在创建一个用于统计计算研究的新平台。此后,项目领导团队已发展到包括来自世界各地的 20 多位顶尖统计学家和计算机科学家。
很大程度上由于其开源性质,R 语言迅速被世界各地大学的统计学系采用,并因其作为学术研究平台的扩展性而受到青睐。免费也是一个重要因素。不久之后,统计学、数据科学和机器学习领域的研究人员开始在学术期刊上发表论文,并附带实现他们新方法的 R 代码。R 语言使这个过程变得非常容易:任何人都可以将 R 包发布到 CRAN(“Comprehensive R Archive Network”,即“综合 R 档案网络”),并使其对所有人可用。截至撰写本文时,成千上万的 R 语言用户已向 CRAN 贡献了 6,100 多个软件包,扩展了 R 语言在计量经济学、临床试验分析、社会科学和网络数据等不同领域的功能。并且可以在MRAN 上按主题或关键字轻松搜索 R 语言应用程序。
虽然核心 R 项目由 R 基金会(一个位于奥地利维也纳的非营利组织)维护,但其他公司和组织也在扩展 R 语言。BioConductor 项目创建了额外的 900 多个软件包,使 R 语言成为基因组和遗传数据分析的领先软件。RStudio 为 R 语言创建了一个出色的开源交互式开发环境,进一步提高了世界各地 R 语言用户的生产力。Revolution Analytics 通过 Revolution R Open 提高了 R 语言的性能,并通过 DeployR 使将 R 语言嵌入到其他应用程序中变得容易。
随着 R 语言在学术界的广泛使用,它很快也开始在商业领域中使用。2009 年 1 月 《纽约时报》科技版头版文章引发了许多新的兴趣,Revolution Analytics 一直非常活跃,提供技术支持、服务和大数据功能。今天,R 语言在 IEEE Spectrum 排名中位列第 9 位最受欢迎的语言,并且连续 4 年蝉联 KDnuggets 数据分析软件调查中最受欢迎的语言,并且 数千家公司正在使用 R 语言 进行数据科学应用。
以下仅举几个例子
- 谷歌使用 R 语言来计算广告活动的投资回报率。
- 福特使用 R 语言来改进其车辆的设计。
- Twitter 使用 R 语言来监控用户体验。
- 美国国家气象局使用 R 语言来预测严重洪水。
- 洛克菲勒政府研究所使用 R 语言来开发模拟公共养老基金财务状况的模型。
- 人权数据分析小组使用 R 语言来量化战争的影响。
- 《纽约时报》经常使用 R 语言来创建信息图表和交互式数据新闻应用程序。
这些公司采用 R 语言是因为它是他们的数据科学家首选的平台。而且,至关重要的是,鉴于数据科学家是一种有限的资源,它也是使数据科学家效率最高的平台。与仅提供受限的点击式工具或黑盒程序的专有系统不同,R 语言是一种功能齐全的编程语言。典型数据科学应用程序所需的所有功能都包含在基本语言中:用于数据访问和准备、数据可视化、统计建模和预测的函数。完整的数据分析通常可以用几行代码表示。并且由于使用 R 语言的数据科学家生成的是代码,而不仅仅是报告,因此他们更容易协作、复制结果(尤其是在自动化生产环境中)以及重用其他项目中的代码以更快地完成任务。
R 语言的开源性质也为公司在创新方面提供了助力。这在当今以数据为中心的世界中非常重要,即使在预测客户需求或财务回报方面比竞争对手略胜一筹,也可能意味着成功与失败之间的差异。由于统计学和机器学习领域的大多数前沿研究都是在 R 语言中完成的,因此最新的技术通常首先以 R 语言软件包的形式出现,比它们出现在专有系统中早几年甚至几十年。
因此,根据 Gartner 的说法,数据科学是首要的业务重点,R 语言的普及程度注定会进一步增长。如果您希望扩展您的职业潜力,并且您具备数据分析技能,那么了解 R 语言将是一个非常不错的选择。
职业
关于开源领域的职位和职业的文章合集.
3 条评论