什么叫描述型数据挖掘_描述型数据挖掘-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 软件培训>>

数据挖掘培训

>>

什么叫描述型数据挖掘_描述型数据挖掘

什么叫描述型数据挖掘_描述型数据挖掘

发布:galaxy_mm | 分类:数据挖掘培训

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

什么是描述型数据挖掘?描述型数据挖掘有哪些特点?下面我们一起来简单的认识一下描述型数据挖掘。统计和可视化要想建立一个好的预言模型,你必须了解自己的数据。最基本的方法是计算各种统计变量(平均值、方差等) ...
扫码加入统计交流群


什么是描述型数据挖掘?描述型数据挖掘有哪些特点?下面我们一起来简单的认识一下描述型数据挖掘。

统计和可视化

要想建立一个好的预言模型,你必须了解自己的数据。最基本的方法是计算各种统计变量(平均值、方差等)和察看数据的分布情况。你也可以用数据透视表察看多维数据。

数据的种类可分为连续的,有一个用数字表示的值(比如销售量)或离散的,分成一个个的类别(如红、绿、蓝)。离散数据可以进一步分为可排序的,数据间可以比较大小(如,高、中、低)和标称的,不可排序(如邮政编码)。

图形和可视化工具在数据准备阶段尤其重要,它能让你快速直观的分析数据,而不是给你枯燥乏味的文本和数字。它不仅让你看到整个森林,还允许你拉近每一棵树来察看细节。在图形模式下人们很容易找到数据中可能存在的模式、关系、异常等,直接看数字则很难。

可视化工具的问题是模型可能有很多维或变量,但是我们只能在2维的屏幕或纸上展示它。比如,我们可能要看的是信用风险与年龄、性别、婚姻状况、参加工作时间的关系。因此,可视化工具必须用比较巧妙的方法在两维空间内展示n维空间的数据。虽然目前有了一些这样的工具,但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西。对于眼睛有色盲或空间感不强的人,在使用这些工具时可能会遇到困难。

聚集(分群)

聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。与分类不同(见后面的预测型数据挖掘),在开始聚集之前你不知道要把数据分成几组,也不知道怎么分(依照哪几个变量)。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集你得到的分群对你的业务来说可能并不好,这时你需要删除或增加变量以影响分群的方式,经过几次反复之后才能最终得到一个理想的结果。神经元网络和K-均值是比较常用的聚集算法。

不要把聚集与分类混淆起来。在分类之前,你已经知道要把数据分成哪几类,每个类的性质是什么,聚集则恰恰相反。

关联分析

关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,他寻找的是事件之间时间上的相关性,如对股票涨跌的分析。

关联规则可记为A==>B,A称为前提和左部(LHS),B称为后续或右部(RHS)。如关联规则“买锤子的人也会买钉子”,左部是“买锤子”,右部是“买钉子”。

要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联(“锤子和钉子”)在数据库中出现的频率称为支持度。比如在总共1000个事务中有15个事务同时包含了“锤子和钉子”,则此关联的支持度为1.5%。非常低的支持度(比如1百万个事务中只有一个)可能意味着此关联不是很重要,或出现了错误数据(如,“男性和怀孕”)。

要找到有意义的规则,我们还要考察规则中项及其组合出现的相对频率。当已有A时,B发生的概率是多少?也即概率论中的条件概率。回到我们的例子,也就是问“当一个人已经买了锤子,那他有多大的可能也会买钉子?”这个条件概率在数据挖掘中也称为可信度,计算方法是求百分比:(A与B同时出现的频率)/(A出现的频率)。

让我们用一个例子更详细的解释这些概念:

总交易笔数(事务数):1,000

包含“钉子”:80

包含“钳子”:20

包含“锤子”和“钉子”:15

包含“钳子”和“钉子”:10

包含“锤子”和“钳子”:10

包含“锤子”、“钳子”和“钉子”:5

则可以计算出:

“锤子和钉子”的支持度=1.5%(15/1,000)

“锤子、钉子和钳子”的支持度=0.5%(5/1,000)

“锤子==>钉子”的可信度=30%(15/50)

“钉子==>锤子”的可信度=19%(15/80)

“锤子和钉子==>钳子”的可信度=33%(5/15)

“钳子==>锤子和钉子”的可信度=25%(5/20)

我们可以看到买锤子的人也买钉子的可能性(30%)高于买钉子的人要买锤子的可能性(19%)。锤子和钉子关联的支持度已经足够高了,意味着这是一条有意义的关联规则。

改善度(lift)是另外一个描述规则价值的数值。改善度越高A的出现对B出现的可能性影响越大。改善度是一个比值:(A==>B的可信度)/(B出现的频率)。如:

“锤子==>钉子”的改善度:3.75(30% / 8%)

“锤子和钉子==>钳子”的改善度:16.5(33% / 2%)

关联规则算法的另一个重要的性质是指定项的概念层次。比如在我们讨论的锤子和钉子的例子中没有涉及产品的品牌和型号。这一点很重要,如在“金属制品-->五金工具-->钉子-->5号钉子-->XX厂的5号钉子”的概念层次上,基于不同的目的,你可能需要选择不同的层次。

注意数据挖掘得到的关联规则或序列模式并不是真正的规则,他只是对数据库中数据之间相关性的一种描述。还没有其他数据来验证得到的规则的正确性,也不能保证利用过去的数据得到的规律在未来新的情况下仍有效。

有时很难决定能利用你发现的关联规则做些什么。比如,在超市货架的摆放策略上,按照发现的关联规则把相关性很强的物品放在一起,反而可能会使整个超市的销售量下降—顾客如果可以很容易的找到他要买的商品,他就不会再买那些本来不在他的购买计划上的商品。总之,在采取任何行动之前一定要经过分析和实验,即使它是利用数据挖掘得到的知识。

有些软件产品用图形的方式显示项之间的相关性。如图3所示,每个圆圈代表一个项或一个事件,线代表他们间的关系,线越粗表示相关性越强,这样对软件的使用者来说就很直观。


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3191974-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版