楼主: 浪子彦青
1291 0

[数据挖掘新闻] 大数据时代如何进行数据挖掘 [推广有奖]

院士

39%

还不是VIP/贵宾

-

威望
1
论坛币
3261 个
通用积分
127.6558
学术水平
74 点
热心指数
87 点
信用等级
63 点
经验
27315 点
帖子
1718
精华
0
在线时间
421 小时
注册时间
2016-6-4
最后登录
2021-2-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大数据时代,要让数据发挥作用就需要对海量数据进行挖掘和利用,本文整理的内容从定义、功能、流程等方面对数据挖掘进行解析。
什么是数据挖掘?


数据挖掘,就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。


组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包含了可视化、信息科学等内容。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。


数据挖掘能做什么?

数据挖掘的五大功能:分类、聚类、关联、预测和偏差的监测


一:分类

按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。


二:聚类

识别出分析对内在的规则,按照这些规则把对象分成若干类。聚类分析实用的技术包括K均值,凝聚层次聚类,dbscan,簇评估等,主要目的是通过基于原型,密度,图等的聚类,发现其间的关系。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。


三:关联规则和序列模式的发现

关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。


四:预测

把握分析对象发展的规律,对未来的趋势做出预见,预测更多的是一种可视化角度分析方法,利用分类,回归等方法,来建立模型解决问题。例如:对未来经济发展的判断。


五:偏差的检测

识别不同于其他数据的具有显著特征值的数据,对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。


数据挖掘的基本流程

1解读需求

确定项目目标,之后制定挖掘计划,这个目标应该是适于用选取的聚类分析方法来达到的。


2、搜集数据

确定数据挖掘计划所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体要求,从相关数据源中抽取与挖掘任务相关的数据集,要保证数据的一致性、完整性、有效性和层次性。


3. 预处理数据

预处理数据可主要分为数据准备和数据归约两部分。其中前者包含了缺失值处理、异常值处理、归一化、平整化、时间序列加权等;而后者主要包含维度归约、值归约、以及案例归约。后面两篇博文将分别讲解数据准备和数据归约。


4、建立模型

在生成最终的数据集后,就可以在此基础上建立模型来进行聚类分析了。建立模型阶段主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数和最大迭代步数等。


5. 评估模型

确切来说,这一步就是在不同的模型之间做出选择,找到最优模型。对产生的模型结果需要进行对比验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试和验证,通过对几种模型的综合比较,产生最后的优化模型。


6. 解释模型

数据挖掘模型在大多数情况下是用来辅助决策的,人们显然不会根据"黑箱模型"来制定决策。如何针对具体环境对模型做出合理解释也是一项非常重要的任务。


需要掌握的基础知识

想学习数据挖掘,几个基础知识是必备。首先是线性代数,包括向量,矩阵等。其次是维归约,包括PCA,SVD等技术的使用。还有概率统计、回归方程、优化等。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:大数据时代 数据挖掘 大数据 学习数据挖掘 数据挖掘模型 大数据时代如何进行数据挖掘 大数据预测 数据挖掘模型 数据挖掘基础知识

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 12:05