楼主: EchoEstelle
2244 2

[统计软件] 数据挖掘中的一些基本概念和度量 [推广有奖]

  • 0关注
  • 31粉丝

教授

56%

还不是VIP/贵宾

-

威望
0
论坛币
6772 个
通用积分
1.2139
学术水平
220 点
热心指数
149 点
信用等级
90 点
经验
22842 点
帖子
498
精华
7
在线时间
839 小时
注册时间
2010-3-10
最后登录
2016-7-20

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1.Jaccard相似度:|A,B交集|/|A,B并集| SIM(x,y)
2.Jaccard距离:1-Jaccard相似度 d(x,y)
3.余弦距离:内积<x,y>
4.编辑距离:将字符串x变为y的单字符插入及删除操作的最小数目
5.海明距离:两个向量中不同分量的个数

1.购物篮模型:两类对象之间一种常见形式的多对多关系。一类对象是项,一类对象是购物篮。
2.关联规则:从数据汇总抽取的频繁项集结表示成为if-then形式的规则集合。I —>j
3.支持度:包含购物篮中项集的子集I的购物篮的数目。
4.频繁项集:如果I的支持度不小于s,则称I是频繁项集。
5.特征矩阵:用矩阵表示集合,列对应集合,行对应全集中的元素。M
6.最小哈希值:特征矩阵排列转换后集合在行排列次序下第一个列值为1的行的行号。
7.最小哈希签名:对于集合S对应的列,分别调用这些排列转换所决定的最小哈希函数h1,h2,...hn,构建S的最小哈希签名向量:
                            [h1(S),h2(S),...hn(S)]

1.项集单调性:如果项集I是频繁的,那么其所有子集都是频繁的。
2.最小哈希和Jaccard相似度:两个集合经随机排列转换之后得到的两个最小哈希值相等的概率等于这两个集合的Jaccard相似度。

1.最小哈希签名的计算方法:

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 Jaccard ACCA card 关联规则 购物篮 字符串 模型

已有 1 人评分学术水平 热心指数 收起 理由
chenyi112982 + 3 + 3 鼓励积极发帖讨论

总评分: 学术水平 + 3  热心指数 + 3   查看全部评分

我非我见我释我是我非我
沙发
琉夜 发表于 2015-2-11 20:09:44 |只看作者 |坛友微信交流群

使用道具

藤椅
dash1188 发表于 2016-7-11 01:55:04 |只看作者 |坛友微信交流群
我来学习的,谢谢啊!!!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 21:00