Title Authors Number_authors
Title 1 Name A | Name B 2
Title 2 Name A | Name B | Name C 3
Title 3 Name A | Name C | Name E | Name Z 4
TITLE 4 NAME A 1
TITLE 5 NAME F | NAME Z 2
..
大概有20000个observations,其中
1. title是unique的
2. authors 内部是sorted,ie,author的前后顺序是按字母顺序来的;
有些author会频繁出现,有些只会出现一次
3. number_authors 取值从1-200.
目标: 能不能设计一个程序从中找出weak unique 【至少两个author name repeat】 的group(authors)所占的比例??比如上述五个数据,title1 与title 2 是repeat的(A.B,满足了至少两个),同样title2与title3也是。
所以以上5个数据可以看做由4 个 weak unique group 产生。
或者推广至N个?
苦思未果,提前谢谢大家宝贵的意见和时间!



雷达卡





京公网安备 11010802022788号







