|
1.今天你阅读到的有价值的全文内容链接
[数据挖掘理论与案例] 值得膜拜的三个数据分析案例_数据分析实战
https://bbs.pinggu.org/thread-4973946-1-1.html
2.今天你阅读到的有价值的内容段落摘录
这两个问题的答案取决于大数据分析的核心问题:弄清相关性与因果关系之间的区别。人类善于发现事物的相关性——这是进化的特征——但是却在发掘直接相关事物的关系时显得有些笨拙。将相关性误解为因果关系所做出的决策是危险的,可能会遭受惨败,因为你所期待看到的影响可能并不会发生。
最近的一项研究显示,某国的巧克力销量与诺贝尔奖的人均比例之间呈现明显的相关性。各国是不是都该鼓励公民增加巧克力的消费来提高获得诺贝尔奖的人数呢?
为有效利用大数据,相关性分析应仅作为一个出发点去考虑。如果两个变量存在关联,我们该如何应对?当然,ZF在推行“巧克力替代教育”的政策之前,应当首先考虑一下其他因素。比方说,看看那些获得诺贝尔奖人数较多的国家相对教育水平和研究预算,与巧克力消费相比,这两个变量与获诺奖的因果关系显然更大。
同样,那些葡式蛋挞和羊奶干酪的零售商们在拥有十足把握以前,需要对他们的假设进行验证。比如说,在确定因果关系存在以前,考察一些商店肉桂葡式蛋挞的“库存积压”情况;或者采取打折销售羊奶干酪的方式,看看红酒销量是否真的增加。
事物之间可能存在着一些简单的因果关系,但公司需要清楚每种因果关系都可能产生意想不到的结果。肉桂葡式蛋挞销量的增加是否意味着其他产品销量的减少?红酒销量的增加是否也意味着啤酒销量的减少或者牛排销量的增加?影响现代供应链的因素很多,而且还在不断增加:天气、社交媒体、特价商品、食品安全新闻等,都会影响消费者的行为,以及零售商应该购置多大规模的存货。这基本上就是一个混沌系统,完全准确地预测将来要发生的事情是不可能的。但模型越完善,预测就越准确,预测越准确,行动结果就越理想。
3.今天你阅读到的有价值信息的自我思考点评感想
数据分析是当下的热门行业,尤其是通过过往数据的分析,对目前的行为作出决策。其中不同现象间的关联性是数据分析的重点之一。相关联并不一定是因果关系!记得一个极致的例子:研究城市中的博士数与羊数这两种现象的关系,统计得出博士与羊存在负相关!显然不能据此得出羊的减少导致博士数量增加的结论。这其中涉及建模时所要关注的是什么,同时删除不必要的因素,而此与建模人员对所涉事项的理解至关重要!故“不懂业务就不要做数据分析”!!
4.昨日你阅读的时间量(小时计算,如0.5小时)
2小时
5.你参与活动至今的总时间量(小时计算,如20小时)
490小时
|