一段一亿长“acgt”序列序列L,目标是寻找这条序列里面长度为n长的子串个数。目前我的算法就是遍历一遍,然后取出每个子串,之后用R的table()函数得出结果。table()的效率很高,慢就慢在循环上面,请教高手指点!谢谢!
L="acgt...............gcta..................................aaccgt" #总共是1亿长
a=c("")
for(i in 1:100000000)
{
a[i]=substr(L,i,i+n-1)
}
b=table(a)
print(b)


雷达卡




京公网安备 11010802022788号







