楼主: 不二不幸福
1506 2

[问答] 高效率去除重复行 [推广有奖]

  • 0关注
  • 1粉丝

硕士生

33%

还不是VIP/贵宾

-

威望
0
论坛币
161 个
通用积分
2.8500
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1641 点
帖子
76
精华
0
在线时间
160 小时
注册时间
2017-9-26
最后登录
2024-6-14

楼主
不二不幸福 发表于 2018-5-4 17:40:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
现有txt文件,格式如下:
aaa 111 222
aaa 222 111
bbb 111 333
aaa 111 222
ccc 222 222
bbb 111 444

希望去除重复项,最后得到:
aaa 111 222
aaa 222 111
bbb 111 333
ccc 222 222
bbb 111 444


数据很大,好几十个G,我写的脚本感觉运行效率很低:
  1. #!~/miniconda2/bin/python
  2. outfile = open('remove_duplicate.txt', 'w')
  3. list_1=[]
  4. for line in open('header_and_position_1.txt'):
  5.     tmp = line.strip()
  6.     if tmp not in list_1:
  7.         list_1.append(tmp)
  8.         outfile.write(line)
  9. outfile.close()
复制代码
请问有没有什么高效率的方法啊?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:高效率 results append python Result

沙发
空山空语 在职认证  发表于 2018-5-15 22:23:09
试试pandas的DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
已有 1 人评分论坛币 收起 理由
我的素质低 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

藤椅
hanhyojoo1992 发表于 2018-5-29 15:26:35
楼上正解

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-9 15:30