经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
广州数据分析师招聘_数据挖掘的方法及工具
广州数据分析师招聘_数据挖掘的方法及工具 :
作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,或者有复杂的数据结构、维数大。最后,数据挖掘是许多学科的交叉运用,它综合了统计学、计算机科学、数学等学科的技术。以下是常见和应用最广泛的算法和模型:
1) 传统统计方法:
① 抽样技术:通常在数据挖掘的过程中我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,因此需要在理论的指导下进行合理的抽样。
② 多元统计分析:如因子分析、聚类分析等。
③ 统计预测方法:如回归分析、时间序列分析等。
2) 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中会运用许多?述统计的方法。可视化技术面对的一个难题是高维数据的可视化。
数据挖掘的具体流程
第一步:数据准备:( 70%时间)
● 获取数据(爬虫,数据仓库)
● 验证数据
● 数据清理(缺失值、孤立点、垃圾信息、规范化、重复记录、特殊值、合并数据集)
● 使用 python 进行文件读取 csv 或 txt 便于操作数据文件( I/O 和文件串的处理,逗号分隔)
● 抽样(大数据时。关键是随机)
● 存储和归档
第二步:数据观察(发现规律和隐藏的关联)
● 单一变量:点图、抖动图;直方图、核密度估计;累计分布函数
● 两个变量:散点图、 LOESS 平滑、残差分析、对数图、倾斜
● 多个变量:假色图、马赛克图、平行左边图
第三步:数据建模
● 推算和估算(均衡可行性和成本消耗)
● 缩放参数模型(缩放维度优化问题)
● 建立概率模型(二项、高斯、幂律、几何、泊松分布与已知模型对比)
第四步:数据挖掘
● 选择合适的机器学习算法(蒙特卡洛模拟,相似度计算,主成分分析)
● 大数据考虑用 Map/Reduce
● 得出结论,绘制最后图表
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|