我从小就喜欢摆弄数字。在 1970 年代后期读本科时,我开始学习统计学课程,学习检查和分析数据以揭示某些含义的方法。
那时,我有一台科学计算器,它使统计计算比以往任何时候都容易得多。在 90 年代初期,作为一名教育心理学研究生,我研究 t 检验、相关性和 方差分析 (ANOVA),我开始通过细致地编写文本文件来进行计算,这些文件被输入到 IBM 大型机中。大型机比我的手持计算器有所改进,但一个微小的空格错误就会使整个过程无效,而且这个过程仍然有些乏味。
为了撰写论文,尤其是我的毕业论文,我需要一种方法从我的数据创建图表并将它们嵌入到文字处理文档中。我对 Microsoft Excel 及其数字处理功能以及我可以使用计算结果创建的无数图表着迷。但是每一步都有成本。在 1990 年代,除了 Excel 之外,还有其他专有软件包可用,例如 SAS 和 SPSS+,但是对于我已经很紧张的研究生课程表来说,学习曲线非常陡峭。
快进到今天
最近,由于我对数据科学新兴的兴趣,加上我对 Linux 和开源软件的浓厚兴趣,我阅读了许多数据科学文章,并听取了许多数据科学演讲者在 Linux 会议上谈论他们的工作。因此,我开始对编程语言 R 非常感兴趣,R 是一种开源统计计算软件。
起初,这只是一点火花。当我与我的朋友 Michael J. Gallagher 博士谈论他如何在 他的论文研究中使用 R 时,这火花逐渐壮大。最后,我访问了 R 项目网站,了解到我可以轻松安装 Linux 版 R。游戏开始!
安装 R
安装 R 因您的操作系统或发行版而略有不同。请参阅 综合 R 档案网络 (CRAN) 网站上的安装指南。CRAN 提供了在 各种 Linux 发行版、Fedora、RHEL 和衍生版本、MacOS 和 Windows 上安装 R 的详细说明。
我使用的是 Ubuntu,并按照 CRAN 的指定,将以下行添加到我的 /etc/apt/sources.list
文件中
deb https://<my.favorite.cran.mirror>/bin/linux/ubuntu artful/
然后我在终端中运行了以下命令
$ sudo apt-get update
$ sudo apt-get install r-base
根据 CRAN,“需要从源代码编译 R 软件包的用户 [例如,软件包维护者,或任何使用 install.packages()
安装软件包的人] 也应该安装 r-base-dev
软件包。”
使用 R 和 RStudio
安装 R 后,我准备好了解更多关于使用这个强大工具的信息。Gallagher 博士推荐了 DataCamp 上的“Start learning R”,我还找到了 Code School 上针对 R 新手的免费课程。这两个课程都帮助我学习了 R 的命令和语法。我还报名参加了 Udemy 上的 R 编程在线课程,并从 No Starch Press 购买了 Book of R。
在阅读更多内容和观看 YouTube 视频后,我意识到我也应该安装 RStudio。RStudio 是一个用于 R 的开源 IDE,易于安装在 Debian、Ubuntu、Fedora 和 RHEL 上。它也可以安装在 MacOS 和 Windows 上。
根据 RStudio 网站,可以通过选择 Tools 菜单,然后从那里选择 Global Options 来自定义 IDE 以满足您的偏好。

opensource.com
R 提供了一些很棒的演示示例,可以通过在提示符下输入 demo()
从控制台访问。demo(plotmath)
和 demo(perspective)
选项提供了 R 强大功能的绝佳示例。我在 R 控制台的命令行中尝试了一些简单的 向量 和绘图,如下所示。

opensource.com
您可能想要开始学习如何使用一些示例数据来使用 R,然后再应用这些知识来生成您自己数据的描述性统计信息。由于我没有大量自己的数据要分析,所以我搜索了 数据集 以供我使用;其中一个来源(我没有用于此示例)是圣路易斯联邦储备银行提供的 经济研究数据。我对一个名为“1937-1960 年美国商业航空公司乘客里程”的数据集很感兴趣,所以我将其导入到 RStudio 中以测试 IDE 的功能。RStudio 可以接受各种格式的数据,包括 CSV、Excel、SPSS 和 SAS。

opensource.com
导入数据后,我使用了 summary(AirPassengers)
命令来获取一些数据的初始描述性统计信息。按下 Enter 键后,我得到了 1949-1960 年每月航空公司乘客人数的摘要,以及其他数据,包括最小、最大、第一季度、第三季度、中位数和平均航空公司乘客人数。

opensource.com
我从我的摘要统计数据中知道,航空公司乘客样本的平均值为 280.3。在控制台中输入 sd(AirPassengers)
会产生标准偏差,如下所示在 RStudio 控制台中

opensource.com
接下来,我通过输入 hist(AirPassengers);
生成了数据的直方图,该直方图以图形方式显示了该数据集;RStudio 可以将数据导出为 PNG、PDF、JPEG、TIFF、SVG、EPS 或 BMP。

opensource.com
除了生成统计数据和图形数据外,R 还保留了我所有操作的历史记录。这使我能够返回到之前的操作,并且我可以保存此历史记录以供将来参考。

opensource.com
在 RStudio 的脚本编辑器中,我可以编写我发出的所有命令的脚本,然后保存该脚本,以便在我的数据发生更改或我想重新访问它时再次运行。

opensource.com
获取帮助
通过在 R 提示符下输入 help()
可以轻松找到帮助。通过输入您正在查找信息的特定主题,例如,help(sd)
可以获得有关标准偏差的帮助信息。通过在提示符下输入 contributors()
可以获得有关 R 项目贡献者的信息。您可以通过在提示符下输入 citation()
来了解如何引用 R。通过在提示符下输入 license()
可以轻松获得 R 的许可信息。
R 是根据 GNU 通用公共许可证条款分发的,版本为 1991 年 6 月的第 2 版或 2007 年 6 月的第 3 版。有关 R 许可的更多信息,请参阅 R 项目网站。
此外,RStudio 在 GUI 中提供了出色的帮助菜单。此区域包括 RStudio 速查表(可以下载为 PDF)的链接、RStudio 上的在线学习、RStudio 文档、支持和 许可信息。
您是否正在使用 R 进行数据科学?请在下面留言,告诉我们您是如何使用它的。
2 条评论