楼主: jack891201
830 3

[问答] R语言实现账户归集,想不出高效方案 [推广有奖]

  • 0关注
  • 0粉丝

初中生

42%

还不是VIP/贵宾

-

威望
0
论坛币
5 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
50 点
帖子
2
精华
0
在线时间
25 小时
注册时间
2013-8-1
最后登录
2022-5-2

楼主
jack891201 发表于 2018-5-4 22:53:41 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如下图所示是袁数据,ID代表客户id,addr和phe分别是地址和电话,只要地址或者电话一样,就说明两个客户id,是属于同一个客户。



结果见这个,id代表客户id,flag组名




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
rainningpoet 发表于 2018-5-5 15:06:44
一个思路 : 将数据看成是    地址和 电话 通过 ID 来连接 的 查并集数据。  然后就可以找到 group 1 有哪些 地址和电话。 group 2  有哪些 地址和电话。 再将 原始数据通过  地址或  电话 找到 group ID。

查并集[UnionFind] R code 好像没有。 我之前 用过 python的

参考 https://code.activestate.com/recipes/577225-union-find/
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

藤椅
cheetahfly 在职认证  发表于 2018-5-20 23:32:29
我思考了一阵,提出一个算法,先在r-bloggers上,暂时没有人指出思路错误,你可以先参考一下:
https://www.r-bloggers.com/do-clustering-by-dimensional-collapse/
我有空会在论坛里贴出中文版的
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
xwan288 + 1 + 1 + 1 热心帮助其他会员

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

板凳
hifinecon 发表于 2018-5-21 07:03:10
interesting

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 04:26