你好,欢迎来到经管之家 [登录] [注册]

设为首页 | 经管之家首页 | 收藏本站

广州数据分析师招聘_数据挖掘的方法及工具

广州数据分析师招聘_数据挖掘的方法及工具




广州数据分析师招聘_数据挖掘的方法及工具 :


作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,或者有复杂的数据结构、维数大。最后,数据挖掘是许多学科的交叉运用,它综合了统计学、计算机科学、数学等学科的技术。以下是常见和应用最广泛的算法和模型:


1) 传统统计方法:


① 抽样技术:通常在数据挖掘的过程中我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,因此需要在理论的指导下进行合理的抽样。


② 多元统计分析:如因子分析、聚类分析等。


③ 统计预测方法:如回归分析、时间序列分析等。


2) 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中会运用许多?述统计的方法。可视化技术面对的一个难题是高维数据的可视化。


数据挖掘的具体流程


第一步:数据准备:( 70%时间)


● 获取数据(爬虫,数据仓库)


● 验证数据


● 数据清理(缺失值、孤立点、垃圾信息、规范化、重复记录、特殊值、合并数据集)


● 使用 python 进行文件读取 csv 或 txt 便于操作数据文件( I/O 和文件串的处理,逗号分隔)


● 抽样(大数据时。关键是随机)


● 存储和归档


第二步:数据观察(发现规律和隐藏的关联)


● 单一变量:点图、抖动图;直方图、核密度估计;累计分布函数


● 两个变量:散点图、 LOESS 平滑、残差分析、对数图、倾斜


● 多个变量:假色图、马赛克图、平行左边图


第三步:数据建模


● 推算和估算(均衡可行性和成本消耗)


● 缩放参数模型(缩放维度优化问题)


● 建立概率模型(二项、高斯、幂律、几何、泊松分布与已知模型对比)


第四步:数据挖掘


● 选择合适的机器学习算法(蒙特卡洛模拟,相似度计算,主成分分析)


● 大数据考虑用 Map/Reduce


● 得出结论,绘制最后图表
推荐阅读
经济学相关文章
标签云
经管之家精彩文章推荐