人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › [下载]数据挖掘——概念、模型、方法和算法

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 4 5 6 7 8 9 10 ... 12 下一页

发帖

楼主: maikenxi1983

36432 113

[数据挖掘理论与案例] [下载]数据挖掘——概念、模型、方法和算法 [推广有奖]

0关注
1粉丝

高中生

20%

还不是VIP/贵宾

威望: 0 级
论坛币: 1946 个
通用积分: 0.0600
学术水平: 0 点
热心指数: 1 点
信用等级: 0 点
经验: 256 点
帖子: 38
精华: 0
在线时间: 3 小时
注册时间: 2006-11-14
最后登录: 2009-7-12

楼主

maikenxi1983 发表于 2006-11-17 15:21:00 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

先来个介绍：

数据挖掘的挖掘任务和挖掘方法

数据挖掘所能发现的知识有如下几种:广义型知识，反映同类事物共同性质的知识;特征型知识，反映事物各方面的特征知识;差异型知识，反映不同事物之间属性差别的知识;关联型知识，反映事物之间依赖或关联的知识;预测型知识，根据历史的和当前的数据推测未来数据;偏离型知识，揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现，随着概念树的提升，从微观到中观再到宏观，以满足不同用户、不同层次决策的需要。例如，从一家超市的数据仓库中，可以发现的一条典型关联规则可能是"买面包和黄油的顾客十有八九也买牛奶"，也可能是"买食品的顾客几乎都用信用卡"，这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。至于发现工具和方法，常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。
　　数据挖掘涉及的学科领域和方法很多，有多种分类法。根据挖掘任务分，可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象分，有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

1、数据抽取

　　数据抽取目的是对数据进行浓缩，给出它的紧凑描述。传统的也是最简单的数据抽取方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值，或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。由于数据库上的数据或对象所包含的信息总是最原始、基本的信息(这是为了不遗漏任何可能有用的数据信息)。人们有时希望能从较高层次的视图上处理或浏览数据，因此需要对数据进行不同层次上的泛化以适应各种查询要求。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。
　　多维数据分析方法是一种数据仓库技术，也称作联机分析处理(OLAP)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作，这类操作的计算量特别大。因此一种很自然的想法是，把汇集操作结果预先计算并存储起来，以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。
　　采用多维数据分析方法进行数据抽取，它针对的是数据仓库，数据仓库存储的是脱机的历史数据。为了处理联机数据，研究人员提出了一种面向属性的归纳方法。它的思路是，直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化，而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系，它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后，就可以对它进行各种深入的操作而生成满足用户需要的知识，如在泛化关系基础上生成特性规则、判别规则、分类规则，以及关联规则等。

2、分类发现

　　分类在数据挖掘中是一项非常重要的任务，目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器)，该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。和回归方法不同的是，分类的输出是离散的类别值，而回归的输出则是连续数值。这里我们将不讨论回归方法。
　　要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征)值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可为v1，v2，...，vn;c);其中vi表示字段值，c表示类别。
　　分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习)，对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法，前者对应的表示为决策树或判别树，后者则一般为产生式规则。神经网络方法主要是BP算法，它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构)，BP算法本质上是一种非线性判别函数。另外，最近又兴起了一种新的方法:粗糙集(roughset)，其知识表示是产生式规则。
　　不同的分类器有不同的特点。有三种分类器评价或比较尺度:1预测准确度;2计算复杂度;3模型描述的简洁度。预测准确度是用得最多的一种比较尺度，特别是对于预测型分类任务，目前公认的方法是10番分层交叉验证法。计算复杂度依赖于具体的实现细节和硬件环境，在数据挖掘中，由于操作对象是巨量的数据库，因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务，模型描述越简洁越受欢迎;例如，采用规则表示的分类器构造法就更有用，而神经网络方法产生的结果就难以理解。
　　另外要注意的是，分类的效果一般和数据的特点有关，有的数据噪声大，有的有缺值，有的分布稀疏，有的字段或属性间相关性强，有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据。

3、聚类
　　
聚类是把一组个体按照相似性归成若干类别，即"物以类聚"。它的目的是使得属于同一类别的个体之间的距离尽可能的小，而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。
　　在统计方法中，聚类称聚类分析，它是多元数据分析的三大方法之一(其它两种是回归分析和判别分析)。它主要研究基于几何距离的聚类，如欧式距离、明考斯基距离等。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。这种聚类方法是一种基于全局比较的聚类，它需要考察所有的个体才能决定类的划分;因此它要求所有的数据必须预先给定，而不能动态增加新的数据对象。聚类分析方法不具有线性的计算复杂度，难以适用于数据库非常大的情况。
　　在机器学习中聚类称作无监督或无教师归纳;因为和分类学习相比，分类学习的例子或数据对象有类别标记，而要聚类的例子则没有标记，需要由聚类学习算法来自动确定。很多人工智能文献中，聚类也称概念聚类;因为这里的距离不再是统计方法中的几何距离，而是根据概念的描述来确定的。当聚类对象可以动态增加时，概念聚类则称是概念形成。
　　在神经网络中，有一类无监督学习方法:自组织神经网络方法;如Kohonen自组织特征映射网络、竞争学习网络等等。在数据挖掘领域里，见报道的神经网络聚类方法主要是自组织特征映射方法，IBM在其发布的数据挖掘白皮书中就特别提到了使用此方法进行数据库聚类分割。

4、关联规则发现
　　
关联规则是形式如下的一种规则，"在购买面包和黄油的顾客中，有90%的人同时也买了牛奶"(面包+黄油(牛奶)。用于关联规则发现的主要对象是事务型数据库，其中针对的应用则是售货数据，也称货篮数据。一个事务一般由如下几个部分组成:事务处理时间，一组顾客购买的物品，有时也有顾客标识号(如信用卡号)。
　　由于条形码技术的发展，零售部门可以利用前端收款机收集存储大量的售货数据。因此，如果对这些历史事务数据进行分析，则可对顾客的购买行为提供极有价值的信息。例如，可以帮助如何摆放货架上的商品(如把顾客经常同时买的商品放在一起)，帮助如何规划市场(怎样相互搭配进货)。由此可见，从事务数据中发现关联规则，对于改进零售业等商业活动的决策非常重要。
　　设I={i1，i2，...，im}是一组物品集(一个商场的物品可能有上万种)，D是一组事务集(称之为事务数据库)。D中的每个事务T是一组物品，显然满足TI。称事务T支持物品集X，如果XT。关联规则是如下形式的一种蕴含:XY，其中XI，YI，且X∩Y=I。
　　(1)称物品集X具有大小为s的支持度，如果D中有s%的事务支持物品集X;
　　(2)称关联规则XY在事务数据库D中具有大小为s的支持度，如果物品集X∪Y的支持度为s;
　　(3)称规则XY在事务数据库D中具有大小为c的可信度，如果D中支持物品集X的事务中有c%的事务同时也支持物品集Y。
　　如果不考虑关联规则的支持度和可信度，那么在事务数据库中存在无穷多的关联规则。事实上，人们一般只对满足一定的支持度和可信度的关联规则感兴趣。在文献中，一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此，为了发现出有意义的关联规则，需要给定两个阈值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持度，它表示了一组物品集在统计意义上的需满足的最低程度;后者即用户规定的关联规则必须满足的最小可信度，它反应了关联规则的最低可靠度。
　　在实际情况下，一种更有用的关联规则是泛化关联规则。因为物品概念间存在一种层次关系，如夹克衫、滑雪衫属于外套类，外套、衬衣又属于衣服类。有了层次关系后，可以帮助发现一些更多的有意义的规则。例如?quot;买外套买鞋子"(此处，外套和鞋子是较高层次上的物品或概念，因而该规则是一种泛化的关联规则)。由于商店或超市中有成千上万种物品，平均来讲，每种物品(如滑雪衫)的支持度很低，因此有时难以发现有用规则;但如果考虑到较高层次的物品(如外套)，则其支持度就较高，从而可能发现有用的规则。
　　另外，关联规则发现的思路还可以用于序列模式发现。用户在购买物品时，除了具有上述关联规律，还有时间上或序列上的规律，因为，很多时候顾客会这次买这些东西，下次买同上次有关的一些东西，接着又买有关的某些东西。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享1 收藏12 回帖

关键词：数据挖掘数据分析方法决策支持系统神经网络模型条形码技术概念数据模型挖掘算法

[下载]数据挖掘——概念、模型、方法和算法

72961.rar (1.91 MB)

使用道具举报

板凳

maikenxi1983 发表于 2006-11-18 06:54:00 |只看作者 |坛友微信交流群

[下载]数据挖掘——概念、模型、方法和算法[1].part2-part5

72962.rar (1.91 MB, 需要: 4 个论坛币)

72963.rar (1.91 MB, 需要: 4 个论坛币)

72964.rar (1.91 MB, 需要: 4 个论坛币)

72965.rar (385.73 KB, 需要: 4 个论坛币)

上面是part1

这里是part2--5

下载完成后一起释放

使用道具举报

报纸

maikenxi1983 发表于 2006-11-18 06:57:00 |只看作者 |坛友微信交流群

[公告]【电子书】简介及封片

【电子书】数据挖掘——概念、模型、方法和算法

Data Mining Concpts,Models,Methods,and Algorithms(数据挖掘——概念、模型、方法和算法)
作者：（美）Mehmed Kantardzic
译者：闪四清,陈茵,程雁
出版社：清华大学出版社

　　作为一本教科书，本书全面讲述了数据挖掘的概念、模型、方法和算法。本书共包括13章和2个附录，全面、详细地讲述了从数据挖掘的基本概念到数据挖掘的整个过程，以及数据挖掘工具及其典型应用领域。本收编写严谨、内容权威、结构合理、科学规范、语言流畅，特别适合作为高等院校数据挖掘课程的教科书，还适合作为数据挖掘研究人员必备的参考书。我们被数据所包围着，这些数据是数值型或其他类型，它们都必须经过分析和处理，转换成通知、指导、回答或辅助决策和理解的信息。由于当今数据集的大小和复杂性的增加，就产生了数据挖掘这个新术语，它描述了间接的、自动化的数据分析技术，这些技术所利用的工具比分析人员过去做基本的数据分析所使用的工具更加复杂和尖端。本书讨论了数据挖掘的原理，接着描述了一些具有代表性的艺术级的方法和算法。这些方法和算法起源于不同的学科，如统计学、机器学习、计算机图形学、数据库、信息检索、神经网络、模糊逻辑和进化计算。本书还提供了详细的算法，而且这些算法都带有必要的解释和图形示例。本书提供了一个指南：在面对一个待挖掘的数据集(以及它们的伴随数据集)时，怎样和何时从成百上千种软件工具中选择特定的一种。本书允许分析人员用书中提供的方法和技术来创建和执行他们自己的数据挖掘实验。本书强调选择合适的方法和数据分析软件，并根据实际情况选择相应的参数。只有在深入理解了参数的意义及其在所提供技术中的作用的情况下，才能作出这些非常重要的、定性的决策。数据挖掘是一个正在蓬勃发展的领域，本书提供了从大量可用的分析程序中进行选择所急需的指南。

目录
第1章数据挖掘的概念 1
1.1 概述 1
1.2 数据挖掘的起源 3
1.3 数据挖掘过程 5
1.3.1 陈述问题和阐明假设 5
1.3.2 数据收集 6
1.3.3 数据预处理 6
1.3.4 模型评估 7
1.3.5 解释模型和得出结论 7
1.4 大型数据集 8
1.5 数据仓库 12
1.6 本书的结构 14
1.7 复习题 15
1.8 参考书目 16

第2章数据准备 17
2.1 原始数据的表述 17
2.2 原始数据的特性 20
2.3 原始数据的转换 22
2.4 丢失数据 24
2.5 时间相关数据 25
2.6 异常点分析 29
2.7 复习题 32
2.8 参考书目 33

第3章数据归约 35
3.1 大型数据集的维度 35
3.2 特征归约 37
3.3 特征排列的熵度量 41
3.4 主成分分析 43
3.5 值归约 45
3.6 特征离散化：ChiMerge技术 48
3.7 案例归约 51
3.8 复习题 54
3.9 参考书目 55

第4章从数据中学习 57
4.1 机器学习 58
4.2 统计学习原理 62
4.3 学习方法的类型 67
4.4 常见的学习任务 68
4.5 模型估计 72
4.6 复习题 76
4.7 参考书目 77

第5章统计方法 78
5.1 统计推断 78
5.2 评测数据集的差异 80
5.3 贝叶斯定理 82
5.4 预测回归 84
5.5 方差分析 89
5.6 对数回归 92
5.7 对数-线性模型 93
5.8 线性判别分析 96
5.9 复习题 98
5.10 参考书目 99

第6章聚类分析 101
6.1 聚类概念 101
6.2 相似度的度量 104
6.3 凝聚层次聚类 108
6.4 分区聚类 112
6.5 增量聚类 114
6.6 复习题 117
6.7 参考书目 119

第7章决策树和决策规则 120
7.1 决策树 121
7.2 C4.5算法：生成一个决策树 122
7.3 未知属性值 128
7.4 修剪决策树 132
7.5 C4.5算法：生成决策规则 133
7.6 决策树和决策规则的局限性 136
7.7 关联分类方法 137
7.8 复习题 140
7.9 参考书目 142

第8章关联规则 144
8.1 购物篮分析 144
8.2 APRIORI 算法 146
8.3 从频繁项集得到关联规则 148
8.4 提高APRIORI算法的效率 149
8.5 频繁模式增长方法(FP-增长方法) 151
8.6 多维关联规则挖掘 153
8.7 WEB挖掘 154
8.8 HITS和LOGSOM算法 156
8.9 挖掘路径遍历模式 161
8.10 文本挖掘 164
8.11 复习题 167
8.12 参考书目 169

第9章人工神经网络 171
9.1 人工神经元的模型 172
9.2 人工神经网络的结构 176
9.3 学习过程 177
9.4 学习任务 181
9.5 多层感知机 183
9.6 竞争网络和竞争学习 189
9.7 复习题 193
9.8 参考书目 195

第10章遗传算法 196
10.1 遗传算法的基本原理 197
10.2 用遗传算法进行优化 198
10.3 遗传算法的一个简单例证 203
10.4 图式(SCHEMATA) 208
10.5 旅行推销员问题 210
10.6 使用遗传算法的机器学习 212
10.7 复习题 216
10.8 参考书目 217

第11章模糊集和模糊逻辑 219
11.1 模糊集 219
11.2 模糊集的运算 224
11.3 扩展原理和模糊关系 229
11.4 模糊逻辑和模糊推理系统 233
11.5 多因子评价 237
11.6 从数据中提取模糊模型 239
11.7 复习题 244
11.8 参考书目 246

第12章可视化方法 247
12.1 感知和可视化 247
12.2 科学可视化和信息可视化 248
12.3 平行坐标 253
12.4 放射性可视化 256
12.5 KOHONEN自组织映射 258
12.6 数据挖掘的可视化系统 259
12.7 复习题 263
12.8 参考书目 264

第13章参考书目 266
附录A 数据挖掘工具 281
附录B 数据挖掘应用 300