Jaccard系数是两个集合之间的相似性度量,定义为两个集合的交集与并集的比例。因此,如果我们有两个集合 A、B,则Jaccard系数为:
Jaccard系数=∣A∩B∣/∣A∪B∣。数据80列/组,每一列可能代表一个集合,0和1可能分别代表元素的缺失和存在。80个集合,总共会有 80
×79/2=3160 个不同的配对。
jaccard_coefficients_df.head()
部分结果 RESULT
Set1 Set2 Jaccard Similarity
0 X1 X2 0.155556
1 X1 X3 0.140000
2 X1 X4 0.173913
3 X1 X5 0.129630
4 X1 X6 0.090909


雷达卡



京公网安备 11010802022788号







