R 编程语言用于 Facebook 等公司的数据可视化和实验分析,并且拥有超过两百万的快速增长的用户群。它最初于 1995 年作为一个开源的学术研究工具而诞生,现已发展为在全球商业和工业企业中广泛使用。
Revolution Analytics 支持 R 社区和商业用户不断增长的需求。最近被评为大数据主题的十大影响者之一,我采访了 Revolution Analytics 的首席社区官 David Smith,请他分享是什么让这种编程语言保持活力。尽管 R 语言自 90 年代就已出现,并在 1995 年由 两位统计学教授为了开发一种新的统计计算语言而以 GPLv2 协议发布,但一股新的活力已经激发了一支围绕 R 语言的吵闹的创新团队。
David 告诉我,开发人员已经贡献了 6000 多个软件包来扩展 R 的功能。阅读本次采访了解更多信息。
像 Facebook 这样的商业机构如何使用 R 来实施数据科学应用?
几乎所有拥有数据科学团队或将统计分析作为战略举措的公司都采用了 R 语言。原因之一是 R 语言在学术界无处不在:任何在大学学习统计学或数据科学的人都学习过 R 语言,因此对于招聘应届毕业生的公司来说,使用 R 语言作为平台是有道理的。在任何处理数据的行业中,R 语言都用于探索性数据分析、数据可视化、实验设计、统计建模和预测……实际上几乎任何类型的高级数据分析。Facebook 主要使用 R 语言进行数据可视化和实验分析,我还在其他几家公司创建了 R 语言应用列表。
CEO Dave Rich 和 CTO Greg Todd 设定的目标在哪些方面具有创新性和独特性?
首先,Dave 和 Greg 专注于将 R 语言推广到世界各地的公司。如今,越来越多的公司将数据科学视为一项战略要务,将其视为从他们收集的数据中释放价值的手段。我们正在帮助这些公司使用 R 语言进行创新:我们为 R 语言提供大数据功能和集成框架;以及这些公司使其数据驱动的应用正常运行所需的技术支持、培训和咨询服务。至于未来,我们正在乘着 R 语言持续增长的浪潮,并将 Revolution R Enterprise 带入云端以及新的数据库和 Hadoop 平台。
作为 Revolution Analytics 开源解决方案组的负责人,您的一天是怎样的?
最近,我一直忙于推出 AdviseR,这是我们为开源 R 用户提供的新技术支持服务。在典型的一天里,我会与我们的开源开发团队举行几次会议,他们致力于我们的社区项目,例如 RHadoop。我们还在开发一些新项目,将 Revolution R Enterprise 的一些专有组件开源化。为 R 项目进行宣传也是我的工作的重要组成部分:我每周会与多家公司会面,向他们介绍 R 语言,并且我每天都会在 Revolutions 博客上发布与 R 语言相关的资源和应用。
福布斯将 Revolution Analytics 评为大数据主题的十大影响者之一,请告诉我们:大数据的未来是什么?大多数公司都做对了吗?
有些公司多年前就弄清楚了大数据;其他公司现在才意识到数据是公司可以拥有的最有价值的资产之一。但在所有情况下,对数据科学家的需求都在快速增长,因为公司认识到,充分利用所有这些数据是在竞争激烈的市场中取得成功的关键。(这也是 R 程序员的薪水目前处于溢价状态的原因之一。)这让我们 Revolution Analytics 的所有人都非常忙碌,因为公司都在寻求帮助以采用和使用 R 语言,从而成为数据驱动型组织。
首席数据科学家 Sue Ranney 开发了 ExaStat,这是一个用于分析海量数据集的开源环境。她在 Revolution Analytics 正在做什么?她的下一个大创意是什么?
Sue 继续致力于开发快速、便携、可扩展的分析。在过去一年中,她一直与团队合作,使用我们的大数据 R 软件包 RevoScaleR,在 Hadoop 和 Teradata 数据库中提供高性能的数据库内分析。她目前正在与我们的首席科学家 Lee Edlefsen 合作一个项目,为 R 程序员提供一个框架,以便他们轻松编写自己的便携式、可扩展的分析。目标是能够在您的桌面上编写和测试用于定制分析的 R 代码,然后能够部署相同的代码,使其自动在计算机集群上的大数据上并行运行。
您对 R 项目的未来有何展望?
随着最近对数据科学家的需求不断增长,R 语言 发展迅速,我预计这种情况将继续下去。在技术方面,对 R 语言的贡献 没有放缓的迹象,因此 R 语言将继续成为寻找统计分析、数据挖掘和数据科学前沿的地方。我为看到 R 项目继续如此成功而感到非常自豪!
Revolution Analytics 最近被 Gartner 评为高级分析平台领域的远见者。
评论已关闭。