RStudio IDE 入门

R 统计计算项目是分析数据的强大工具,而 RStudio IDE 使其易于使用。
330 位读者喜欢这篇文章。
Top 4 JavaScript code editors

Opensource.com

我从小就喜欢摆弄数字。在 1970 年代后期读本科时,我开始学习统计学课程,学习检查和分析数据以揭示某些含义的方法。

那时,我有一台科学计算器,它使统计计算比以往任何时候都容易得多。在 90 年代初期,作为一名教育心理学研究生,我研究 t 检验、相关性和 方差分析 (ANOVA),我开始通过细致地编写文本文件来进行计算,这些文件被输入到 IBM 大型机中。大型机比我的手持计算器有所改进,但一个微小的空格错误就会使整个过程无效,而且这个过程仍然有些乏味。

为了撰写论文,尤其是我的毕业论文,我需要一种方法从我的数据创建图表并将它们嵌入到文字处理文档中。我对 Microsoft Excel 及其数字处理功能以及我可以使用计算结果创建的无数图表着迷。但是每一步都有成本。在 1990 年代,除了 Excel 之外,还有其他专有软件包可用,例如 SAS 和 SPSS+,但是对于我已经很紧张的研究生课程表来说,学习曲线非常陡峭。

快进到今天

最近,由于我对数据科学新兴的兴趣,加上我对 Linux 和开源软件的浓厚兴趣,我阅读了许多数据科学文章,并听取了许多数据科学演讲者在 Linux 会议上谈论他们的工作。因此,我开始对编程语言 R 非常感兴趣,R 是一种开源统计计算软件。

起初,这只是一点火花。当我与我的朋友 Michael J. Gallagher 博士谈论他如何在 他的论文研究中使用 R 时,这火花逐渐壮大。最后,我访问了 R 项目网站,了解到我可以轻松安装 Linux 版 R。游戏开始!

安装 R

安装 R 因您的操作系统或发行版而略有不同。请参阅 综合 R 档案网络 (CRAN) 网站上的安装指南。CRAN 提供了在 各种 Linux 发行版Fedora、RHEL 和衍生版本MacOSWindows 上安装 R 的详细说明。

我使用的是 Ubuntu,并按照 CRAN 的指定,将以下行添加到我的 /etc/apt/sources.list 文件中

deb https://<my.favorite.cran.mirror>/bin/linux/ubuntu artful/

然后我在终端中运行了以下命令

$ sudo apt-get update
$ sudo apt-get install r-base

根据 CRAN,“需要从源代码编译 R 软件包的用户 [例如,软件包维护者,或任何使用 install.packages() 安装软件包的人] 也应该安装 r-base-dev 软件包。”

使用 R 和 RStudio

安装 R 后,我准备好了解更多关于使用这个强大工具的信息。Gallagher 博士推荐了 DataCamp 上的“Start learning R”,我还找到了 Code School 上针对 R 新手的免费课程。这两个课程都帮助我学习了 R 的命令和语法。我还报名参加了 Udemy 上的 R 编程在线课程,并从 No Starch Press 购买了 Book of R

在阅读更多内容和观看 YouTube 视频后,我意识到我也应该安装 RStudio。RStudio 是一个用于 R 的开源 IDE,易于安装在 Debian、Ubuntu、Fedora 和 RHEL 上。它也可以安装在 MacOS 和 Windows 上。

根据 RStudio 网站,可以通过选择 Tools 菜单,然后从那里选择 Global Options 来自定义 IDE 以满足您的偏好。

RStudio global options

opensource.com

R 提供了一些很棒的演示示例,可以通过在提示符下输入 demo() 从控制台访问。demo(plotmath)demo(perspective) 选项提供了 R 强大功能的绝佳示例。我在 R 控制台的命令行中尝试了一些简单的 向量 和绘图,如下所示。

Plotting vectors

opensource.com

您可能想要开始学习如何使用一些示例数据来使用 R,然后再应用这些知识来生成您自己数据的描述性统计信息。由于我没有大量自己的数据要分析,所以我搜索了 数据集 以供我使用;其中一个来源(我没有用于此示例)是圣路易斯联邦储备银行提供的 经济研究数据。我对一个名为“1937-1960 年美国商业航空公司乘客里程”的数据集很感兴趣,所以我将其导入到 RStudio 中以测试 IDE 的功能。RStudio 可以接受各种格式的数据,包括 CSV、Excel、SPSS 和 SAS。

Importing data into RStudio

opensource.com

导入数据后,我使用了 summary(AirPassengers) 命令来获取一些数据的初始描述性统计信息。按下 Enter 键后,我得到了 1949-1960 年每月航空公司乘客人数的摘要,以及其他数据,包括最小、最大、第一季度、第三季度、中位数和平均航空公司乘客人数。

Summary data on air passengers

opensource.com

我从我的摘要统计数据中知道,航空公司乘客样本的平均值为 280.3。在控制台中输入 sd(AirPassengers) 会产生标准偏差,如下所示在 RStudio 控制台中

Standard deviation on air passenger data

opensource.com

接下来,我通过输入 hist(AirPassengers); 生成了数据的直方图,该直方图以图形方式显示了该数据集;RStudio 可以将数据导出为 PNG、PDF、JPEG、TIFF、SVG、EPS 或 BMP。

Histogram of air passenger data

opensource.com

除了生成统计数据和图形数据外,R 还保留了我所有操作的历史记录。这使我能够返回到之前的操作,并且我可以保存此历史记录以供将来参考。

History of commands

opensource.com

在 RStudio 的脚本编辑器中,我可以编写我发出的所有命令的脚本,然后保存该脚本,以便在我的数据发生更改或我想重新访问它时再次运行。

RStudio script editor

opensource.com

获取帮助

通过在 R 提示符下输入 help() 可以轻松找到帮助。通过输入您正在查找信息的特定主题,例如,help(sd) 可以获得有关标准偏差的帮助信息。通过在提示符下输入 contributors() 可以获得有关 R 项目贡献者的信息。您可以通过在提示符下输入 citation() 来了解如何引用 R。通过在提示符下输入 license() 可以轻松获得 R 的许可信息。

R 是根据 GNU 通用公共许可证条款分发的,版本为 1991 年 6 月的第 2 版或 2007 年 6 月的第 3 版。有关 R 许可的更多信息,请参阅 R 项目网站。

此外,RStudio 在 GUI 中提供了出色的帮助菜单。此区域包括 RStudio 速查表(可以下载为 PDF)的链接、RStudio 上的在线学习、RStudio 文档、支持和 许可信息


您是否正在使用 R 进行数据科学?请在下面留言,告诉我们您是如何使用它的。

标签
User profile image.
教育工作者、企业家、开源倡导者、终身学习者、Python 教师。教育心理学硕士、教育领导学硕士、Linux 系统管理员。

2 条评论

我尝试了 RStudio,但放弃了。它绝不是一个直观的界面。如果您对统计数据和图表不感兴趣,那么有更好、更简单的方法来生成文档。

© . All rights reserved.