R语言教程之九个步骤教你轻松成Master
人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始,如何进行,选择什么学习资源。虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼。
为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果。
R语言学习方法会帮助您快速、高效学习R语言。
前言
在开始学习之前,第一个要回答的问题是:为什么要用R语言?或者R语言为何如此有用?
R语言是一门快速发展的开源软件,是SAS、STATA和SPSS这类商业软件的竞争对手。就业市场对R语言的需求正在迅速上升,微软等公司也同时承诺将致力让R语言成为数据科学通用语言。
看看由Revolution Analytics制作的90秒视频(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R语言的用处。顺便说下,微软刚刚收购了Revolution Analytics。
步骤一:配置计算机环境
建立R语言学习环境最简单方法是通过综合R语言归档网络(CRAN)下载(https://cran.r-project.org/)到您的本地计算机上。可以选择Linux、Mac和Windows对应二进制文件下载。
您可能会考虑使用R语言自带的控制台,但我们建议您安装R语言集成开发环境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能让R语言编码更容易、更快,还能让您输入多行代码、处理图形、安装和维护程序,有效引导您的编程环境。RStudio此外可以选用基于eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安装图形用户界面(GUI),请选择R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)。
课后作业
-
安装R和RStudio。
-
安装Rcmdr、rattle和Deducer程序包。以及推荐或依赖的程序包,包括GUI。
-
使用库命令加载安装程序,并打开GUI。
步骤二:R语言基础学习
您应该首先了解语言、库和数据结构基础知识。
如果您更倾向于在线交流方式学习R语法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免费在线R教程是很好的资源。还可以选择后续课程:中级R编程(https://www.datacamp.com/courses/intermediate-r)。另一种学习方法是在线版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能让您在类似RStudio环境中学习R语言。
在互动学习环境中,您可以选择参加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc课程。
除了上述在线资源,您还可以考虑以下优秀资源:
-
CRAN免费教学R语言(https://cran.r-project.org/doc/manuals/R-intro.pdf)。
-
Jared Lander’s R for Everyone(http://www.jaredlander.com/r-for-everyone/)
-
Quick-R(http://statmethods.net/)
专门学习:阅读、数据帧、表、概述、描述、加载和安装包、使用绘图命令可视化数据。
课后作业
-
使用DataCamp免费在线R教程,熟悉基本的R语法。
-
创建Github(http://github.com/)账号。
-
通过google帮助,解决安装过程中出现的问题。
-
安装swirl包并学习R编程(见上文)。
步骤三:了解R社
强大社区的存在是R语言发展迅速、大获成功的主要原因。社区中核心的是R语言的“包”生态系统。R语言程序包可以在CRAN、bioconductor、github和bitbucket中下载。在Rdocumentation(http://www.rdocumentation.org/)中,您可以轻松搜索来自CRAN、github和bioconductor中能满足您当前工作需要的程序包。与在R语言程序包生态系统同样重要的是,您可以在R endeavours上轻松获得帮助与反馈。首先,R内置帮助系统,您可以通过命令来访问。同时,在Analytics Vidhya Discussions,Stack OverflowR语言是增长最快语言。R-bloggers(http://www.r-bloggers.com/)汇集许多R语言爱好者写的博文。
课后作业:
-
访问CranTask Views了解R语言生态系统。
-
在http://r-bloggers.com上注册并订阅每日新闻。
步骤四:数据导入和操作
导入和操作数据是数据科学工作流程中重要步骤。R语言允许使用特定包导入不同数据格式,从而使您工作更轻松,如下:
-
readr:导入平面文件。
-
Readxl package:将excel文件转化为R语言。
-
haven package包:让您将SAS、STATA和SPSS数据文件导入R语言。
-
Databases:连接通过像RMySQL和RpostgreSQL包,使用DBI访问和操作。
-
rvest: 网页数据抓取。
一旦数据在工作环境中可用,您就可以使用下面程序包操作:
-
整理数据的tidyr程序包。
-
stringr包处理字符串操作。
-
对象数据帧,可以学习dplyr包输入和输出(https://www.datacamp.com/courses/dplyr-data-manipulation)。
-
关键字: