数据挖掘总结概念篇(转)-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 软件培训>>

数据挖掘培训

>>

数据挖掘总结概念篇(转)

数据挖掘总结概念篇(转)

发布:颜羽瑶 | 分类:数据挖掘培训

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

什么是[color=rgb(68,68,68)!important]数据挖掘?记得第一次接触这个概念是在3年前,那个时候个人理解数据挖掘就是一组算法工具。后来,查阅资料,有很多解释,最多的就是:数据挖掘就是从海量数据中寻找潜在的、未 ...
扫码加入金融交流群


什么是[color=rgb(68, 68, 68) !important]数据挖掘?

记得第一次接触这个概念是在3年前,那个时候个人理解数据挖掘就是一组算法工具。后来,查阅资料,有很多解释,最多的就是:数据挖掘就是从海量数据中寻找潜在的、未知的、有用的模式和知识的过程。随着逐渐深入地去学习理解和数据挖掘相关的知识,发现把数据挖掘看做KDD(数据库中的知识发现)之中的一个过程。到今天,有了新的理解,数据挖掘是一种解决方案。这也是目前的认识。随着时间的推移,数据挖掘将发挥更为重要的作用。BI (商业智能)= DW(数据仓库)+ DM(数据挖掘) + OLAP(在线联机分析处理) + IV(information visualization信息可视化)。

Association关联----发现同时发生的事件或有关事件的过程。例如,用相关技术来检测哪些产品经常被同时购买。与序列检测不同,序列检测用于检测产品被购买的顺序。

Balanced data平衡数据----有时你会有两种或更多种数据要用来分析,每种数据应该有一个等值的数字使模型程序简化。

Churn流失 ----- 流失描述顾客减少的过程,对许多公司,尤其是通讯业、财政服务业而言,这是一种主要的恶化来源。

Classification分类----通过检测物体的特征而将其归类的过程。 在分类时,群体被定义为一个外部标准(不同于聚类) 。

Clustering聚类----基于相似性而将记录分组的过程。例如,保险公司可能利用[color=rgb(68, 68, 68) !important]聚类分析,根据收入、年龄、购买的政策类型或先前的犯罪记录对顾客分组。聚类划分子集以使有相似内容的记录在同一组别内,而组与组之间尽可能不同(不同于分类)。

CRISP-DM ----CRISP-DM提供了数据挖掘项目的结构, 及潜在问题和解决方案的指导。CRISP-DM分为六个阶段:商务理解,数据理解,数据准备,模型,评估和新产品发布。

Cross-selling——交叉销售向现有顾客提供或销售额外产品或服务的实践。

Data mining数据挖掘----分析数据以发现隐藏模式和关系----有助于你管理和改进你的商业-的过程。

Decision trees决策树----树状的图表显示清晰地显示数据分割、模式和等级。

Deployment成果发布----数据挖掘结果的分发和应用。

Field 区域----一个单一数据或信息的区域,也称为变量和属性。例如,一个数据区域可能包含顾客的名。下一个数据区域可能包含顾客的姓。

Gains tables利润表----利润表通过显示用模型所得结果和不用模型所得结果的差别,以显示模型效益。

Kohonen networkKohonen 网络----一种用于聚类分析的神经网络。

Lift charts通过显示用模型所得结果和不用模型所得结果的比率使用户检测模型效益。Lift线距离基线越远,模型越有效。

Machine-learningtechniques 机器学习技术----一套可使计算机学习某种任务,如作决定,评估,分类或预测(无手工程序)----的方法。

Model 模型----一套典型的法则、行为或特征,根据它们分析数据以找到相似性。描述性的模型被用于分析过去的事件。预测性模型用于提示未来将要发生的事件。在预测性模型帮助下,数据挖掘者可发掘另外的想法以决定哪些行为会产生未来预想的结果。

Neural network神经网络----一个利用复杂的、模仿脑细胞抽像功能的数学计划,用于预测或对个体进行分类的模型。通过用大量的观察个体来对神经网络进行训练,一次用一个,允许它不断地更新自己,直到它学会这项任务。

Noise 噪声----模型与它的预测之间的差别。有时,数据包含错误----如缺失或不正确数字或有一些外来列的混入----时,会被考虑为噪声。

OLAP 在线分析处理----在线分析处理使用户能分析当前的和历史的数据层。虽然在线分析处理可利用你的数据,告诉你正在发生的事件和已经发生的事件,但它不能告诉你未来将要发生的事件。

Pivot tables枢轴表----交互表可使用户通过早期重新设置数据的行、列、层来得到信息的不同显示。

Predictive modeling预测模型----建立模型以预测未来活动、行为或特征的过程。例如,一个预测模型可基于以前的流失者的特征和行为,来显示未来哪些顾客最可能流失.

Query 查询----基于某些特征或性质的信息的发向数据库的查询。

Record 记录----记录是指贮存在一起的一套相关数据。也称为行(电子表中)或个体(统计学中)。

Regression回归----有许多类型的回归,包括ordinal 回归,非线性逻辑思特回归,二项式逻辑思特回归,非线性回归(NLR)和非限制性非线性回归(CNLR)。

Reporting报告----以一定为接收者易于理解的格式开发或发布数据分析结果的过程。

Return on investment(ROI)投资回报率---- ROI 是被返回的或从各种在技术、下层构造等投资中获得的价值。


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-3168625-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版