如何教生物学生利用R编程
最近两三年,明明感受关于R的书籍多了起来,年头更是进入了TOBIE排行版的前20,Oracle 又筹备将R整合到其数据库产物中。和Hadoop集群的整合,一定会使R在大数据阐明和可视化规模中火起来的。
Bioconductor上有大量的阐明包,是生物界所无法回避的,Ewan Birney在其博文Five statistical things I wished I had been taught 20 years ago中更是单独把R给列出来,做为一个措施员,几多都应该学点R。
本文并禁绝备答复标题这么大的问题,这只是读文献(A Quick Guide to Teaching R Programming to Computational Biology Students)做个记录罢了。
关于R语言的先容,文章的附件1给出了很好的lecture note, 作者认为较好的进修要领是通过着手去办理一些生物学问题,并列出了以下三个问题:
可反复研究:
The idea of reproducible research is quite simple: to provide not only a brief
description of, e.g., how some data has been analysed, but also to provide the
code and data to allow someone else to recreate exactly the same sequence of steps
R的Sweave文档根基上就是加了R code的Latex,文档通过Sweave处理惩罚,R code被运行,所有的输出(文本或图片)以latex代码再插入到源文档,然后就可以通过latex编译生成PDF文档。附件2和3别离是Sweave源码和相应的PDF,通过预计pi的实例来先容reproducible research,显然作者很垂青这个本领,起码要写R包的话,这是必备的。
作者提供了几本参考书:
并列出了几本计较生物学方面的书: