楼主: huapeng66
1513 2

[问答] 请问如何将下表数据去重处理成目标数据的样子? [推广有奖]

  • 6关注
  • 0粉丝

博士生

47%

还不是VIP/贵宾

-

威望
0
论坛币
5217 个
通用积分
7.0196
学术水平
3 点
热心指数
4 点
信用等级
2 点
经验
24876 点
帖子
133
精华
0
在线时间
320 小时
注册时间
2018-9-16
最后登录
2023-3-21

楼主
huapeng66 学生认证  发表于 2022-2-10 11:09:58 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如题怎么将下来数据处理成目标数据:
原数据:
编号1编号2相似度
AB0.6
BA0.6
CD0.5
DC0.5
EF0.8
FE0.8
AD0.6
DA0.6




目标数据
编号1编号2相似度
AB0.6
CD0.5
EF0.8
AD0.6


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:成目标 数据处理 相似度

沙发
正直者之死 发表于 2022-2-14 09:30:34
  1. import pandas as pd

  2. # 原始数据
  3. data = pd.DataFrame({'编号1': ['A', 'B', 'C', 'D', 'E', 'F', 'A', 'D'],
  4.     '编号2': ['B', 'A', 'D', 'C', 'F', 'E', 'D', 'A'],
  5.     '相似度': [0.6, 0.6, 0.5, 0.5, 0.8, 0.8, 0.6, 0.6]})

  6. # 新建一列“tmp”,值为为tuple(sorted(['编号1', '编号2']))
  7. data['tmp'] = [tuple(sorted([data['编号1'][i], data['编号2'][i]])) for i in range(len(data))]

  8. # 去重后取前三列
  9. data = data.drop_duplicates('tmp')[data.columns[:3]]
复制代码
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
Sunknownay + 3 + 3 + 3 热心帮助其他会员

总评分: 学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

藤椅
huapeng66 学生认证  发表于 2022-2-15 13:23:22
正直者之死 发表于 2022-2-14 09:30
谢谢!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-2 01:23