什么是数据挖掘?
数据挖掘,就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。
组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包含了可视化、信息科学等内容。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。
数据挖掘的五大功能:分类、聚类、关联、预测和偏差的监测
一:分类
按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
二:聚类
识别出分析对内在的规则,按照这些规则把对象分成若干类。聚类分析实用的技术包括K均值,凝聚层次聚类,dbscan,簇评估等,主要目的是通过基于原型,密度,图等的聚类,发现其间的关系。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
三:关联规则和序列模式的发现
关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。
四:预测
把握分析对象发展的规律,对未来的趋势做出预见,预测更多的是一种可视化角度分析方法,利用分类,回归等方法,来建立模型解决问题。例如:对未来经济发展的判断。
五:偏差的检测
识别不同于其他数据的具有显著特征值的数据,对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
1、解读需求
确定项目目标,之后制定挖掘计划,这个目标应该是适于用选取的聚类分析方法来达到的。
2、搜集数据
确定数据挖掘计划所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体要求,从相关数据源中抽取与挖掘任务相关的数据集,要保证数据的一致性、完整性、有效性和层次性。
3. 预处理数据
预处理数据可主要分为数据准备和数据归约两部分。其中前者包含了缺失值处理、异常值处理、归一化、平整化、时间序列加权等;而后者主要包含维度归约、值归约、以及案例归约。后面两篇博文将分别讲解数据准备和数据归约。
4、建立模型
在生成最终的数据集后,就可以在此基础上建立模型来进行聚类分析了。建立模型阶段主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数和最大迭代步数等。
5. 评估模型
确切来说,这一步就是在不同的模型之间做出选择,找到最优模型。对产生的模型结果需要进行对比验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试和验证,通过对几种模型的综合比较,产生最后的优化模型。
6. 解释模型
数据挖掘模型在大多数情况下是用来辅助决策的,人们显然不会根据"黑箱模型"来制定决策。如何针对具体环境对模型做出合理解释也是一项非常重要的任务。
想学习数据挖掘,几个基础知识是必备。首先是线性代数,包括向量,矩阵等。其次是维归约,包括PCA,SVD等技术的使用。还有概率统计、回归方程、优化等。