为什么现在是学习 R 语言的好时机

还没有读者喜欢这篇文章。
open source city

Opensource.com

我们都听说过大数据;在过去的几年里,许多公司投资了 Hadoop、NoSQL 和数据仓库,以收集和存储海量的新数据。即使是基于像 Hadoop 这样的开源平台,对于拥有新硬件、新员工以及花费无数工时来实施新系统和流程的大公司来说,这些投资也可能很容易达到数百万美元。

现在是该项投资获得回报的时候了。

实现这一目标的方法是 数据科学,即从数据中提取知识。它不仅仅是对数据进行制表和报告;数据科学结合了计算机科学、统计分析以及对业务需求的敏锐理解,以区分相关性和因果关系,并预测未来的结果和风险。根据 TheNextWeb 的说法,数据科学家正在“改变商业智能的面貌”。而且,数据的可用性增加使得数据科学对于产品开发以及创建和管理对于自动化系统来说过于复杂的创新至关重要,尤其是在隐私问题至关重要的世界中。

因此,公司正在大规模招聘数据科学家。根据求职追踪网站 Indeed.com 的数据,自 2011 年初以来,数据科学家的职位发布数量激增。虽然最近几个月,大部分增长主要体现在数据科学技能方面,因为数据科学家承担了专门的职位头衔。与此同时,数据科学家仍然享有令人印象深刻的薪资:根据 O'Reilly Media 最新的 数据科学薪资调查,全球中位数为 98,000 美元,美国为 144,000 美元。

Job Trends

由于如此强劲的需求和如此高的薪资,数据科学家招聘竞争激烈也就不足为奇了。因此,以前依赖传统专有平台进行统计分析的公司现在正在采用一种新的替代方案,开源 R 语言。到目前为止,全球已有超过两百万的数据科学家和统计学家选择了它。

R 是一种用于统计数据分析的开源软件平台。R 项目始于 1993 年,由新西兰两位统计学家 Ross Ihaka 和 Robert Gentleman 发起,旨在创建一个用于统计计算研究的新平台。此后,项目领导团队不断壮大,包括来自世界各地的 20 多位顶尖统计学家和计算机科学家。

很大程度上由于其开源性质,R 语言迅速被世界各地大学的统计学系采用,其可扩展性作为学术研究平台吸引了他们。免费的成本当然也发挥了作用。不久之后,统计学、数据科学和机器学习领域的研究人员开始在学术期刊上发表论文,并附上实现他们新方法的 R 代码。R 语言使这个过程非常容易:任何人都可以将 R 包发布到 CRAN(“综合 R 存档网络”),并使其对所有人可用。截至撰写本文时,成千上万的 R 语言用户已向 CRAN 贡献了 6100 多个软件包,扩展了 R 语言在 计量经济学临床试验分析社会科学基于网络的数据 等不同领域的能力。并且可以在 MRAN 上按主题或关键字轻松搜索 R 应用程序。

虽然核心 R 项目由 R 基金会(一个位于奥地利维也纳的非营利组织)维护,但其他公司和组织也在扩展 R 语言。BioConductor 项目创建了额外的 900 多个软件包,使 R 语言成为基因组和遗传数据分析的领先软件。RStudio 为 R 语言创建了一个出色的开源交互式开发环境,进一步提高了各地 R 语言用户的生产力。Revolution Analytics 通过 Revolution R Open 提高了 R 语言的性能,并通过 DeployR 使 R 语言能够轻松嵌入到其他应用程序中。

随着 R 语言在学术界的广泛使用,不久之后它也开始在商业领域中使用。2009 年 1 月 《纽约时报》技术版头版文章引发了许多新的兴趣,Revolution Analytics 一直非常活跃,提供技术支持、服务和大数据功能。如今,R 语言被 IEEE Spectrum 评为第九大最受欢迎的语言,并且一直被评为 数据科学最受欢迎的语言,并且 数千家公司正在使用 R 语言进行数据科学应用。

以下仅举几个例子

  • 谷歌使用 R 语言来计算广告活动的 ROI。
  • 福特使用 R 语言来改进其车辆的设计。
  • Twitter 使用 R 语言来监控用户体验。
  • 美国国家气象局使用 R 语言来预测严重洪水。
  • 洛克菲勒政府研究所使用 R 语言来开发模拟公共养老基金财务状况的模型。
  • 人权数据分析小组使用 R 语言来量化战争的影响。
  • 《纽约时报》经常使用 R 语言来创建信息图表和交互式数据新闻应用程序。

这些公司采用 R 语言是因为它是他们的数据科学家首选使用的平台。而且,至关重要的是,鉴于数据科学家是一种有限的资源,它也是使数据科学家效率最高的平台。与仅提供受限的点击工具或黑盒程序的专有系统不同,R 是一种功能齐全的编程语言。典型数据科学应用程序所需的所有功能都包含在基础语言中:用于数据访问和准备、数据可视化、统计建模和预测的函数。完整的数据分析通常可以用几行代码表示。而且由于使用 R 语言的数据科学家生成的是代码,而不仅仅是报告,因此他们更容易协作、复制结果(尤其是在自动化生产环境中)以及重用其他项目中的代码以更快地完成任务。

R 语言的开源性质还在创新方面为公司提供了助力。这在当今以数据为中心的世界中非常重要,即使在预测客户需求或财务回报方面比竞争对手略胜一筹,也可能意味着成功与失败之间的差异。由于统计学和机器学习领域的大多数前沿研究都是在 R 语言中完成的,因此最新的技术通常首先以 R 软件包的形式提供,比它们出现在专有系统中早几年甚至几十年。

因此,根据 Gartner 的说法,数据科学是企业首要任务,R 语言的受欢迎程度势必会进一步增长。如果您希望扩展您的职业潜力,并且您具备数据分析技能,那么学习 R 语言 将是一个非常不错的选择。 

开源
职业

关于开源领域工作和职业的文章合集.

User profile image.
David Smith 是 Revolution Analytics 的首席社区官,领导开源解决方案团队。他拥有数据科学背景,每天在 Revolutions 博客上撰写关于 R 语言和预测分析应用的文章,并被《福布斯》评为“大数据”主题的前 10 名影响者。

3 条评论

感谢这篇有趣的文章。我正在攻读经济学博士学位,主要处理通过初步调查获得的横截面数据。学习 R 软件包会提高我未来的职业前景吗?如果会,请告知。

“R” 语言拥有适用于各种数据(横截面、面板、时间序列)的软件包,您可以进行任何您喜欢的统计建模。它是一种非常灵活且易于学习的语言。

关于职业前景,作为博士,您不依赖于工具。它们只是获取洞察力的手段。但是,是的,在所有统计语言/工具中,R 语言因其开源、庞大的社区(您可以在其中
寻求帮助)而在学者和行业中越来越受欢迎。最重要的是,它是免费的,而且将永远免费。

回复 ,作者:Himanshu Prasad (未验证)

R 语言也有一些很棒的跨平台组件。我们在 QuantConnect 使用 R.NET,并可以将其集成到 C# 算法中

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.