RStudio IDE 入门

R 统计计算项目是分析数据的强大工具,而 RStudio IDE 使其易于使用。
330 位读者喜欢这篇文章。
Top 4 JavaScript code editors

Opensource.com

我记事以来,就一直喜欢摆弄数字。20世纪70年代末,作为一名本科生,我开始学习统计学课程,学习检查和分析数据以揭示意义的方法。

那时,我有一个科学计算器,它使统计计算比以往任何时候都容易得多。在 90 年代初期,作为一名教育心理学研究生,研究 t 检验、相关性和 方差分析 (ANOVA),我开始通过细致地编写文本文件来进行计算,这些文件被输入到 IBM 大型机中。大型机比我的手持计算器有所改进,但一个微小的空格错误就会使整个过程无效,而且这个过程仍然有些乏味。

为了撰写论文,尤其是我的毕业论文,我需要一种方法从我的数据创建图表并将其嵌入到文字处理文档中。我着迷于 Microsoft Excel 及其数字处理能力,以及我可以使用计算结果创建的无数图表。但每一步都有成本。在 1990 年代,除了 Excel 之外,还有其他专有软件包可用,如 SAS 和 SPSS+,但对于我本已紧张的研究生时间表来说,学习曲线非常陡峭。

快进到现在

最近,由于我对数据科学新兴的兴趣,加上我对 Linux 和开源软件的浓厚兴趣,我阅读了许多数据科学文章,并听取了许多数据科学演讲者在 Linux 会议上谈论他们的工作。因此,我对编程语言 R,一种开源统计计算软件,产生了浓厚的兴趣。

起初,这只是一个火花。当我与我的朋友 Michael J. Gallagher 博士谈论他在他的 学位论文研究 中如何使用 R 时,这个火花变得更大了。最后,我访问了 R 项目 网站,了解到我可以轻松安装 Linux 版 R。游戏开始!

安装 R

R 的安装因您的操作系统或发行版而略有不同。请参阅 Comprehensive R Archive Network (CRAN) 网站上的安装指南。CRAN 提供了在 各种 Linux 发行版Fedora、RHEL 及其衍生产品MacOSWindows 上安装 R 的详细说明。

我使用的是 Ubuntu,并按照 CRAN 的说明,将以下行添加到我的 /etc/apt/sources.list 文件中

deb https://<my.favorite.cran.mirror>/bin/linux/ubuntu artful/

然后在终端中运行以下命令

$ sudo apt-get update
$ sudo apt-get install r-base

根据 CRAN,“需要从源代码编译 R 包的用户 [例如,包维护者,或任何使用 install.packages() 安装包的人] 也应该安装 r-base-dev 包。”

使用 R 和 RStudio

安装 R 后,我准备学习更多关于使用这个强大工具的知识。Gallagher 博士推荐在 DataCamp 上“开始学习 R”,我还找到了一个针对 R 新手的免费课程,在 Code School 上。这两个课程都帮助我学习了 R 的命令和语法。我还报名参加了 Udemy 上的 R 编程在线课程,并从 No Starch Press 购买了 Book of R

在阅读更多内容和观看 YouTube 视频后,我意识到我也应该安装 RStudio。RStudio 是一个用于 R 的开源 IDE,易于安装在 Debian、Ubuntu、Fedora 和 RHEL 上。它也可以安装在 MacOS 和 Windows 上。

根据 RStudio 网站,可以通过选择“工具”菜单,然后选择“全局选项”来根据您的偏好自定义 IDE。

RStudio global options

opensource.com

R 提供了一些很棒的演示示例,可以通过在提示符下输入 demo() 从控制台访问。demo(plotmath)demo(perspective) 选项很好地说明了 R 的强大功能。我在 R 控制台的命令行中试验了一些简单的 向量 和绘图,如下所示。

Plotting vectors

opensource.com

您可能希望开始学习如何使用一些示例数据来使用 R,然后再应用这些知识来生成您自己数据的描述性统计信息。由于我没有大量自己的数据可供分析,因此我搜索了可以使用的 数据集;其中一个来源(我没有用于此示例)是圣路易斯联邦储备银行提供的 经济研究数据。我对一个名为“1937-1960 年美国商业航空公司乘客里程”的数据集很感兴趣,所以我将其导入 RStudio 以测试 IDE 的功能。RStudio 可以接受多种格式的数据,包括 CSV、Excel、SPSS 和 SAS。

Importing data into RStudio

opensource.com

导入数据后,我使用 summary(AirPassengers) 命令来获取数据的一些初始描述性统计信息。按下 Enter 键后,我得到了 1949-1960 年每月航空公司乘客的摘要,以及其他数据,包括最小、最大、第一季度、第三季度、中位数和平均航空乘客数量。

Summary data on air passengers

opensource.com

从我的摘要统计信息中,我知道这个航空公司乘客样本的平均值为 280.3。在控制台中输入 sd(AirPassengers) 会得到标准差,如下所示在 RStudio 控制台中

Standard deviation on air passenger data

opensource.com

接下来,我通过输入 hist(AirPassengers); 生成了我的数据的直方图,它以图形方式显示了这个数据集;RStudio 可以将数据导出为 PNG、PDF、JPEG、TIFF、SVG、EPS 或 BMP。

Histogram of air passenger data

opensource.com

除了生成统计数据和图形数据外,R 还保留了我所有操作的历史记录。这使我能够返回到之前的操作,并且我可以保存此历史记录以供将来参考。

History of commands

opensource.com

在 RStudio 的脚本编辑器中,我可以编写一个包含我发出的所有命令的脚本,然后保存该脚本以在我的数据更改或我想重新访问它时再次运行。

RStudio script editor

opensource.com

获取帮助

可以通过在 R 提示符下输入 help() 轻松找到帮助。可以通过输入您正在查找信息的特定主题来找到特定帮助信息,例如,help(sd) 用于获取关于标准差的帮助。可以通过在提示符下输入 contributors() 来获得关于 R 项目贡献者的信息。您可以通过在提示符下输入 citation() 来了解如何引用 R。可以通过在提示符下输入 license() 轻松获得关于 R 的许可信息。

R 是根据 GNU 通用公共许可证的条款分发的,可以是 1991 年 6 月的第 2 版,也可以是 2007 年 6 月的第 3 版。有关 R 许可的更多信息,请参阅 R 项目网站。

此外,RStudio 在 GUI 中提供了一个出色的“帮助”菜单。此区域包括指向 RStudio 速查表(可以下载为 PDF)、RStudio 上的在线学习、RStudio 文档、支持和 许可信息 的链接。


您是否正在使用 R 进行数据科学?请在下方留言,告诉我们您是如何使用它的。

标签
User profile image.
教育家、企业家、开源倡导者、终身学习者、Python 教师。教育心理学硕士,教育领导学硕士,Linux 系统管理员。

2 条评论

我尝试了 RStudio 并放弃了。它绝不是一个直观的界面。如果您对统计数据和图表不感兴趣,则有更好、更简单的方法来生成文档。

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.