楼主: galaxy_mm
2485 3

[数据挖掘理论与案例] 什么叫描述型数据挖掘_描述型数据挖掘 [推广有奖]

  • 1关注
  • 9粉丝

已卖:24份资源

教授

54%

还不是VIP/贵宾

-

威望
1
论坛币
9830 个
通用积分
19.0592
学术水平
19 点
热心指数
25 点
信用等级
10 点
经验
11177 点
帖子
759
精华
0
在线时间
262 小时
注册时间
2014-8-5
最后登录
2022-11-21

楼主
galaxy_mm 在职认证  企业认证  发表于 2014-9-2 10:46:44 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

什么是描述型数据挖掘?描述型数据挖掘有哪些特点?下面我们一起来简单的认识一下描述型数据挖掘。

统计和可视化

要想建立一个好的预言模型,你必须了解自己的数据。最基本的方法是计算各种统计变量(平均值、方差等)和察看数据的分布情况。你也可以用数据透视表察看多维数据。

数据的种类可分为连续的,有一个用数字表示的值(比如销售量)或离散的,分成一个个的类别(如红、绿、蓝)。离散数据可以进一步分为可排序的,数据间可以比较大小(如,高、中、低)和标称的,不可排序(如邮政编码)。

图形和可视化工具在数据准备阶段尤其重要,它能让你快速直观的分析数据,而不是给你枯燥乏味的文本和数字。它不仅让你看到整个森林,还允许你拉近每一棵树来察看细节。在图形模式下人们很容易找到数据中可能存在的模式、关系、异常等,直接看数字则很难。

可视化工具的问题是模型可能有很多维或变量,但是我们只能在2维的屏幕或纸上展示它。比如,我们可能要看的是信用风险与年龄、性别、婚姻状况、参加工作时间的关系。因此,可视化工具必须用比较巧妙的方法在两维空间内展示n维空间的数据。虽然目前有了一些这样的工具,但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西。对于眼睛有色盲或空间感不强的人,在使用这些工具时可能会遇到困难。

聚集(分群)

聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。与分类不同(见后面的预测型数据挖掘),在开始聚集之前你不知道要把数据分成几组,也不知道怎么分(依照哪几个变量)。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好,这时你需要删除或增加变量以影响分群的方式,经过几次反复之后才能最终得到一个理想的结果。神经元网络和K-均值是比较常用的聚集算法。

不要把聚集与分类混淆起来。在分类之前,你已经知道要把数据分成哪几类,每个类的性质是什么,聚集则恰恰相反。

关联分析

关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,他寻找的是事件之间时间上的相关性,如对股票涨跌的分析。

关联规则可记为A==>B,A称为前提和左部(LHS),B称为后续或右部(RHS)。如关联规则“买锤子的人也会买钉子”,左部是“买锤子”,右部是“买钉子”。

要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联(“锤子和钉子”)在数据库中出现的频率称为支持度。比如在总共1000个事务中有15个事务同时包含了“锤子和钉子”,则此关联的支持度为1.5%。非常低的支持度(比如1百万个事务中只有一个)可能意味着此关联不是很重要,或出现了错误数据(如,“男性和怀孕”)。

要找到有意义的规则,我们还要考察规则中项及其组合出现的相对频率。当已有A时,B发生的概率是多少?也即概率论中的条件概率。回到我们的例子,也就是问“当一个人已经买了锤子,那他有多大的可能也会买钉子?”这个条件概率在数据挖掘中也称为可信度,计算方法是求百分比:(A与B同时出现的频率)/(A出现的频率)。

让我们用一个例子更详细的解释这些概念:

     总交易笔数(事务数):1,000

包含“钉子”:80

包含“钳子”:20

包含“锤子”和“钉子”:15

包含“钳子”和“钉子”:10

包含“锤子”和“钳子”:10

包含“锤子”、“钳子”和“钉子”:5

则可以计算出:

“锤子和钉子”的支持度=1.5%(15/1,000)

“锤子、钉子和钳子”的支持度=0.5%(5/1,000)

“锤子==>钉子”的可信度=30%(15/50)

“钉子==>锤子”的可信度=19%(15/80)

“锤子和钉子==>钳子”的可信度=33%(5/15)

“钳子==>锤子和钉子”的可信度=25%(5/20)

我们可以看到买锤子的人也买钉子的可能性(30%)高于买钉子的人要买锤子的可能性(19%)。锤子和钉子关联的支持度已经足够高了,意味着这是一条有意义的关联规则。

改善度(lift)是另外一个描述规则价值的数值。改善度越高A的出现对B出现的可能性影响越大。改善度是一个比值:(A==>B的可信度)/(B出现的频率)。如:

“锤子==>钉子”的改善度:3.75(30% / 8%)

“锤子和钉子==>钳子”的改善度:16.5(33% / 2%)

关联规则算法的另一个重要的性质是指定项的概念层次。比如在我们讨论的锤子和钉子的例子中没有涉及产品的品牌和型号。这一点很重要,如在“金属制品-->五金工具-->钉子-->5号钉子-->XX厂的5号钉子”的概念层次上,基于不同的目的,你可能需要选择不同的层次。

注意数据挖掘得到的关联规则或序列模式并不是真正的规则,他只是对数据库中数据之间相关性的一种描述。还没有其他数据来验证得到的规则的正确性,也不能保证利用过去的数据得到的规律在未来新的情况下仍有效。

有时很难决定能利用你发现的关联规则做些什么。比如,在超市货架的摆放策略上,按照发现的关联规则把相关性很强的物品放在一起,反而可能会使整个超市的销售量下降—顾客如果可以很容易的找到他要买的商品,他就不会再买那些本来不在他的购买计划上的商品。总之,在采取任何行动之前一定要经过分析和实验,即使它是利用数据挖掘得到的知识。

有些软件产品用图形的方式显示项之间的相关性。如图3所示,每个圆圈代表一个项或一个事件,线代表他们间的关系,线越粗表示相关性越强,这样对软件的使用者来说就很直观。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:描述型数据挖掘 数据挖掘 数据透视表 关联规则 序列模式 数据挖掘 描述型数据挖掘 数据

沙发
luojscd 发表于 2014-9-3 14:24:25
学习学习!!

藤椅
galaxy_mm 在职认证  企业认证  发表于 2014-9-3 17:58:47
luojscd 发表于 2014-9-3 14:24
学习学习!!
谢谢支持~什么叫描述型数据挖掘_描述型数据挖掘

板凳
420948492 发表于 2014-9-4 12:23:42

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-31 22:02