878 0

[问题] 到底什么是数据挖掘? [推广有奖]

  • 0关注
  • 0粉丝

大专生

68%

还不是VIP/贵宾

-

威望
0
论坛币
120 个
通用积分
11.5863
学术水平
4 点
热心指数
1 点
信用等级
4 点
经验
560 点
帖子
38
精华
0
在线时间
31 小时
注册时间
2016-12-5
最后登录
2023-2-15

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
到底什么是数据挖掘


由于数据科学刚刚兴起,数据科学家作为一种新生职业被提出,数据研究高级科学家Rachel Schutt将其定义为”计算机科学家、软件工程师和统计学家的混合体“。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。


而要明白某一事物的本质,就需要通过另一些近似的事物特性对比来说明。
就好像你单独提问什么是男人?很难解释对不对。

所以咱们来举个栗子简单看看:

一、分析报告

在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。
  • 孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。
  • 二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀力量无穷。
  • 所以在大战开始三百回合时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手
  • 最后二郎神赢了。分析报告完成。


二、统计分析

大圣二战杨戬。这次在二位大战之前做个数理统计来预测结果。
  • 首先根据历史样本史书记载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。
  • 然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%。
  • 所以可以得出综合预测总体胜率是孙悟空赢面大。
  • 结论依靠历史记录,使用样本预测总体,根据经验做出假设。统计分析完成。


三、数据挖掘

孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现:
  • 贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。
  • 战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。
  • 在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。
  • 样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。
综上所述,我们可知道:
  • 论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。
  • 悟空的师父菩提老祖(准提道人)和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。
  • 斗战胜佛战斗经验相对整日快活逍遥无忧无虑的二郎神来说更加丰富。
  • 另孙行者由于样貌原因始终单身(好伤感)。
  • 所以可以得出结论,这次大战孙悟空赢面大。数据挖掘完成。

四、最后总结:

  • 分析报告一般是整个事件发生结束以后的总结(马后炮)。
  • 统计分析能利用大量的历史样本来预测整个事件总体未来的走向(概率)。
  • 数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 计算机科学 软件工程师 数据科学家 统计分析 什么是数据挖掘 数据分析 数据分析报告 数据挖掘与统计

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 21:20