1.Jaccard相似度:|A,B交集|/|A,B并集| SIM(x,y)
2.Jaccard距离:1-Jaccard相似度 d(x,y)
3.余弦距离:内积<x,y>
4.编辑距离:将字符串x变为y的单字符插入及删除操作的最小数目
5.海明距离:两个向量中不同分量的个数
1.购物篮模型:两类对象之间一种常见形式的多对多关系。一类对象是项,一类对象是购物篮。
2.关联规则:从数据汇总抽取的频繁项集结表示成为if-then形式的规则集合。I —>j
3.支持度:包含购物篮中项集的子集I的购物篮的数目。
4.频繁项集:如果I的支持度不小于s,则称I是频繁项集。
5.特征矩阵:用矩阵表示集合,列对应集合,行对应全集中的元素。M
6.最小哈希值:特征矩阵排列转换后集合在行排列次序下第一个列值为1的行的行号。
7.最小哈希签名:对于集合S对应的列,分别调用这些排列转换所决定的最小哈希函数h1,h2,...hn,构建S的最小哈希签名向量:
[h1(S),h2(S),...hn(S)]
1.项集单调性:如果项集I是频繁的,那么其所有子集都是频繁的。
2.最小哈希和Jaccard相似度:两个集合经随机排列转换之后得到的两个最小哈希值相等的概率等于这两个集合的Jaccard相似度。
1.最小哈希签名的计算方法: