楼主: Elationguy
1853 0

从抛硬币的正反面问题看传统统计、数据挖掘技术与数据挖掘应用 [推广有奖]

  • 1关注
  • 0粉丝

初中生

14%

还不是VIP/贵宾

-

威望
0
论坛币
31 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
176 点
帖子
6
精华
0
在线时间
9 小时
注册时间
2015-11-12
最后登录
2017-10-15

楼主
Elationguy 发表于 2015-11-14 14:52:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  传统的统计学是数据挖掘的基础,那么统计、数据挖掘之间有什么区别呢?首先,提一个问题:有一个硬币,抛了十次,都是正面,那么,请问,第十一次抛硬币,正面的概率是多少?

  从传统统计学的角度看这个问题,一个硬币,有正反两面,每一面出现的概率都是1/2,第十一次正面的概率当然就是1/2了。从数据挖掘来看,我们建立一个模型,然后进行预测分析,可以肯定,预测的结果第十一次肯定是正面,而且概率几乎是1。这个就是传统统计学与数据挖掘的区别了,传统概率更多的是根据古典概率来判断一个事情,而数据挖掘,则是根据之前的历史数据,得出结果。

  那么,这里为什么还要提一个“数据挖掘技术”与“数据挖掘应用呢”,这两者有什么区别。预测出第十一次是正面,且概率是1,这是通过数据挖掘技术得到的结论。那么,这个结论正不正确,分析其中出现的原因,以及可能涉及到的有价值的结论,这就过渡到“数据挖掘应用”了。

  抛硬币十次,出现了十次正面,那么我们就有理由提出一个假设:这个硬币两个面都是正面,相信这一点应该是很容易理解的。这是数据挖掘应用的第一步,分析数据,得到假设结论。那接下来,我们要做的,就是验证这个假设,查看这个硬币是否真的是两个面都是正面。如果是,那么这就得到了一个重要信息:这个硬币两个面都是正面,这就是数据挖掘应用了。如果不是,那么,好了,我们从硬币的密度、形状、抛硬币的手法,等各个方面进行分析,看是不是这些因素影响导致连续出现十次正面,如果发现有这些因素的影响,那么这就是我们的有价值信息了。但还是有可能,所有因素都没有,那么好了,我们必须承认,连续十次正面,这样一个几乎不可能事件真的发生了,那么就可以得到结论:这个硬币是正常的,第十一次出现正面的概率是1/2,通过数据挖掘技术得到的结论是错的。

  这就是传统统计、数据挖掘技术和数据挖掘应用的区别,要真正做好数据挖掘,必须从技术层面过渡到应用层面,通俗的说,就是必须具备分析数据、解释数据、提取数据价值的业务能力,这个是数据挖掘应用的核心,也是数据挖掘的核心。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘技术 数据挖掘应用 数据挖掘 正反面 历史数据 统计 挖掘

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-22 20:09