楼主: 明悦数据
1135 0

[CDA数据分析师学习之路] 数据分析方法,寻找事物之间的因果规律-逻辑关系法(4) [推广有奖]

  • 0关注
  • 7粉丝

等待验证会员

硕士生

4%

还不是VIP/贵宾

-

威望
0
论坛币
20 个
通用积分
5.3512
学术水平
1 点
热心指数
1 点
信用等级
1 点
经验
1258 点
帖子
57
精华
0
在线时间
59 小时
注册时间
2019-7-12
最后登录
2021-4-22

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

逻辑关系——寻找事物之间的因果规律

系列文章总览:

7.1相关性与相关系数分析

7.2事物之间的逻辑关系与科学规律

7.3果因关系与因果关系,看不见的事物发展逻辑

7.4事物发展规律的复杂性与科学抽象

7.5因果关系与回归分析

7.6逻辑回归

7.7关联与共生——现象与规律的探寻

逻辑4.jpg

数据分析的核心目的是掌握事物的发展规律。只有掌握了事物的发展规律,我们才能更好地掌控事物,让事物按照我们预期的方向去发展。我们从数据中掌握了事物发展的规律,就可以按照这个规律来创造未来,从而让事物按照我们预期的方向发生和发展。

7.6 逻辑回归

为了让读者更容易理解,前面介绍的都是线性回归的例子,其中有一元线性回归,例如生产产值与工人数量的回归关系,就是只有一个因变量(产值)和一个自变量(工人数量);另外也有多元线性回归(二元线性回归),例如销售额产出与电视广告和广播广告投入之间的关系。

在这些例子中,因变量和自变量都是连续的数据,虽然人数不能取小数,但也是连续的,都可以看作定比数据。但是在很多情况下,变量中会存在定类数据。例如在判断美国大选谁会当选总统,并且当选总统的概率是多少时,我们需要采用另外一种回归分析模型——逻辑回归。其本质与线性回归差异不大,但是判定的结果可能只有两个:输或者赢,是或者非。这些都是定类数据结果。最初统计学的逻辑回归是应用在医学研究领域的,判断在什么条件下发病(是或者否),而不是一个连续的变量。这就是逻辑回归与其他多元线性回归不同的地方。

在现实世界中有很多的数据都是定类数据,所以逻辑回归的应用也非常广泛,例如判定一个人是否会自杀,答案就是是或者否;判断一个产品是否会成功,答案也是是或者否。

本书之所以要把这个相对比较复杂的数学模型拿出来与大家分享,主要是因为其应用相对广泛,而且易于理解。鉴于本书不是一本讲解数学模型的书,所以就不介绍数学模型的相关算法了,感兴趣的读者可以参考相关的专业书籍。

在企业的经营过程中,有大量答案为是或否的问题,例对一个投资的决策是否有效、一个购买决定是否正确、一次信用卡消费是否是真实的、一次交易是否是欺诈性交易等,这些都会用到逻辑回归的算法模型。逻辑回归算法模型在广告领域内应用特别广泛,我们可以把消费者购买一个商品的决策作为因变量,把影响消费者购买决策的因素作为自变量,从而构筑一个数学模型来预测广告的效果。

7.7 关联与共生——现象与规律的探寻

数据只能告诉我们现象,却无法告诉我们原因。单纯从数据上看,我们无法知道是因为工厂要生产更多的产品,所以需要更多的工人;还是因为有了更多的工人,才生产出了更多的产品。所以产量与工人数量之间的关系,即谁为因,谁为果,只有管理者才会清楚,数据就是孤零零的数字,虽然能够回答工厂产量与工人数量的相关性,但是无法揭示它们之间的因果关系。

事物之间有些是因果关系,有些是共生关系,这两种关系在进行数据分析时都体现为“相关关系”。

什么是共生关系?太阳的照射让树木生长了,也让青草生长了,青草的生长和树木的生长是共生关系,它们都来自同一个原因:太阳。而本书所说的“共生关系”与大自然中的共生关系不同。大自然中的共生关系是指生活在一起、相互依存的关系;而本书所说的共生关系是指共同发生、一起存在,彼此之间或许有关联,或许没有任何关联,是时间或者地理位置上的共同存在的关系。

生活中有大量的共生关系,其中有些明显不是因果关系。例如每年夏天有大量的儿童溺水事件,同时在夏天雪糕的销量大幅上涨,这两者具有非常强的相关关系。我们可以明显地判断,雪糕不是导致儿童溺水的原因,这两者都是天气炎热导致的。天气炎热,人们用雪糕来解暑,所以雪糕的销量上涨;天气炎热,很多儿童到水中去游泳,所以导致溺水事件增多。这两者之间是共生的关系,其背后都有着相同的驱动因素:气温升高。

0.6.jpg

还有一个经典的经济学趣味故事叫作“裙摆指数”,意思是说“女人穿的裙子越短,股市越好;女人穿的裙子越长,股市越萧条”。虽然没有看到具体的数据化验证,但是解释这个现象的人非常多,包括提出这个理论的宾夕法尼亚大学沃顿商学院的经济学家乔治·泰勒。他认为:“经济增长时,女人会穿短裙,因为她们要炫耀里面的长丝袜;当经济不景气时,女人买不起长丝袜,只好把裙边放长,以掩饰没有穿长丝袜的窘迫。”也有人从心理学的角度解释了这个现象:“经济不景气的时候,女性也会情绪低迷,失去了装扮自己的心情,穿衣着装就偏向保守;相反,在经济繁荣的时候,她们的心情也好,会走更加性感和大胆的路线,男人们也会有更多的心情去欣赏她们。”纽约大都会博物馆服装馆馆长哈罗德·柯达认为:“当人们的心理遇到困境,悲观情绪滋长时,着装就会朝着保守低调的方向发展,如穿长袖、高领、长裙。”

其实这两个现象“共生”背后都有经济原因。利用共生关系,我们可以用一个简单常见的现象来评判、推测或者推演另外一个不太容易观察的现象。例如女人的裙摆长度是比较容易观察的,站在大街上就能够看到,而股市的涨跌是谁都难以判断的。“裙摆指数”就是用裙摆来查看不太容易观测的经济学现象。

在《趣味经济学》一书中选择了各种各样的现象来解读经济,包括用男士内裤销量、口红销量、扑克牌销量、女服务员的美貌程度、女士头发长短等。虽然扯的有点远,但它们在一定意义上的确存在一些共生关系。男士内裤销量高,女士口红的销量就会变差——其实背后都是整体经济形势以及民众对经济形势判断的乐观与悲观程度在影响,二者并不存在“因果关系”。

大数据一直强调数据之间的相关关系,而不太强调事物之间的逻辑关系,笔者并不支持这个观点。虽然数据不能直接揭示事物之间的逻辑关系和因果关系,但是能够解释因果关系和逻辑关系,对于我们利用大数据分析和挖掘的结果来指导未来的实践是非常重要的。大数据是数据加工的方式,是一种“思考”方式,是能够替代人类大脑工作的一种技术,对这种技术如果不求甚解,则是非常危险的,我们需要构筑一些逻辑关系让数据产生智慧。

全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著

该文转载已取得作者认可

版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】

下期内容更实战!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-18 02:51