发帖

楼主: 不二不幸福

1238 2

[问答] 脚本运行效率太低，该怎么优化 [推广有奖]

0关注
1粉丝

硕士生

32%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 181 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 1591 点
帖子: 76
精华: 0
在线时间: 159 小时
注册时间: 2017-9-26
最后登录: 2022-3-30

楼主

不二不幸福 发表于 2018-6-26 17:08:07 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

代码如下：

#!~/miniconda2/envs/py3/bin/python
import pysam
import re
import sys
import os
def divide_UMI(s):
name = s.query_name.split('|')[1]
UMI1 = re.findall(r'.{12}', name)[0]
UMI2 = re.findall(r'.{12}', name)[1]
return(UMI1,UMI2)
r1 = pysam.AlignmentFile(sys.argv[1], 'rb')
outfile = pysam.AlignmentFile("raw_duplex.bam","wb",template=r1)
for s1 in r1:
r2 = pysam.AlignmentFile(sys.argv[2], 'rb')
for s2 in r2:
R1_UMI1,R1_UMI2 = divide_UMI(s1)
R2_UMI1,R2_UMI2 = divide_UMI(s2)
if(R1_UMI1==R2_UMI2 and R1_UMI2==R2_UMI1 and s1.pos==s2.pos and s1.pnext==s2.pnext):
outfile.write(s1)
outfile.write(s2)
else:
continue
r2.close()
outfile.close()
r1.close()

复制代码

这个代码的目的是要找到在这两个文件中存在的满足条件的行，比如下面两行：
E00548:177:HKH53CCXY:4:1204:1783:5563|TACAGACTGTGGCAAGCAACCGAT  163    chr22 24930312       54    71M67S  =    24930312       71    GAGAATTGCTTGGGCAGAGGTTGCAGTGAACTGAGATCATGCCACTGCACTCCAGCCTGGCGACAGAGCGAACCACAGTCTGTAAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTAT JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJAJJJJFJJJJAAJJFJFJJJJJAFJJJJJJJJJJFAJAAF NM:i:0  MD:Z:71 AS:i:71 XS:i:54 RG:Z:L004

E00548:177:HKH53CCXY:4:2210:30573:69678|CAAGCAACCGATTACAGACTGTGG       99    chr22 24930312       54    71M67S  =    24930312       71    GAGAATTGCTTGGGCAGAGGTTGCAGTGAACTGAGATCATGCCACTGCACTCCAGCCTGGCGACAGAGCGAACCACAGTCTGTAAGATCGGAAGAGCACACGTCTGAACTCCAGTCACATCTCGTATGCCGTCTTCTG JJJJJJJFJJJJJJJJJJFJJJJJJJJJJJJFJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJFJJJJJJJJJJJJAJJJJJJFJJJFFJJJ7 NM:i:0  MD:Z:71 AS:i:71 XS:i:54 RG:Z:L004

这是两行，分别来自打开的两个文件，格式都是相同的，筛选出这两行的条件就是：
1、这两行的第一列中的TACAGACTGTGGCAAGCAACCGAT 与 CAAGCAACCGATTACAGACTGTGG
   第一个的前12个字符等于第二个中的后12个字符，第一个的后12个字符等于第二个中的前12个字符，直观一点就是：
   TACAGACTGTGG CAAGCAACCGAT
   CAAGCAACCGAT TACAGACTGTGG
2、第四列值相同
3、这两行的第8列值也相同

如上代码所示，我是对这两个文件用了两个for循环，满足条件的就写入文件，但是这个代码运行得十分缓慢，请问一下怎么修改可以提高运行速度啊？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

[问答] 脚本运行效率太低，该怎么优化 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[问答] 脚本运行效率太低，该怎么优化 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群