如何利用R语言搜索DNA序列中的非碱基标记
都知道在设计引物时,为了增加引物的广谱性,经常会利用简并引物。其实,在我们从Genbank中下载的许多序列经常有很多位置上并非碱基标记,有些时候这些标记也代表必然的简并信息。别的在并对完序列之后,很多位置上经常会呈现“-”和“?”等标记。当我拿到一条序列时候,我们很想知道序列中有没有除了碱基以外的标记。下面我们就通过R语言中的unique函数来实现这一成果。
> |
data <- readLines(“D:\\ziliao\\zhuanye\\R bear\\isk4.fastr”) |
导入fastr名目标序列 |
> |
data <- strsplit(data,”) |
支解 |
> |
data <- unlist(data) |
打散成为单字符元素的字符向量 |
> |
unique(data) [1] “C” “G” “T” “A” “-” “?” “N” |
去掉反复,搜索到非碱基标记 |