假设有一个简单的线性回归模型Y=a1X1+a2X2+b,X1和X2是所谓的独立变量,Y是因变量。例如可以假设Y是销售的商品;而X1可能是在杂志上打广告,X2是在电视上打广告。可以根据a1和a2这两个系数的大小得知在哪里投放广告能获得更大效益。
大系数思维就是把资源投放在系数更大的变量上。
大系数思维引出了一系列“询证XX”的概念:
询证医学:观察所有尝试用于病人的不同治疗方法,然后收集所有的佐证,搞清楚饮食、运动、药物治疗等等变量哪一个系数最大?哪一种药物的系数最大?而那就是你该投入资源的地方。
询证慈善:如果你想改善一个社区或一个国家,你要看哪个系数的回报率更高,是应该把钱花在孩子、医疗、女性、教育等等中的哪个方面,据此作出更好的决定。
询证思考的运作方式:首先尝试建立某个模型,思考什么变量是相关的、这些变量的结构形式;其次我们通常都会收集数据;然后区别出重要的变量;最后试图改变那些变量。
大数据不能减弱模型的作用:模型是为了弄明白这个世界是怎么运转的,即使你看到模式、鉴别模式,和理解它们的根源完全是两码事。比如我们已经做了很多的实验,似乎力是等于质量乘以加速度,但这和有一个能解释为什么如此的模型是很不一样的。
大系数思维存在缺陷:在没有模型的情况下,仅仅基于纯粹的数据,在任何询证过程中试图建立政策是有问题的:
首先,关联不等于因果,数据间有相关性并不能说明是其中一个变量的变化引起了另一个变量变化,可能他们都是其他因素作用的结果。
第二,线性模型告诉我们变量的符号和量级,但只是对目前掌握的数据有效,所以我们希望有一个模型能告诉我这个线性关系在其他情况下是否还能成立。
例一:车辆轮胎的防抱死装置。汽车事故的数据表明造成汽车事故的一个原因是车子撞到前面的车上去了,如果能让车停得早一些,就可以减少事故的发生。所以可以把钱投入到防抱死的刹车装置上。一开始这好像救了很多人命,但是随着时间的推移,人们可能因为觉得防抱死刹车性能更好所以在跟车时会缩短和前车的距离,在这样的反馈行为下,防抱死刹车的效果在很大程度上被减弱了,所以如果考虑进反馈,就不是个完美的线性模型。
例二:教育效果和班级规模。可能有数据表明当班级规模从25降到20人时,学生成绩会变好,然后你据此推断如果让班级规模为15学生成绩会继续线性上升,但实际上成绩可能并不会如此上升,因为会有其他的影响因素使得影响递减,比如一个很大的反馈因素是随着班级规模缩小需要雇佣更多的老师,而可能没有这么多同样质量的老师。
这些反馈因素的存在意味着如果想把线性关系扩展到数据范围之外必须非常小心。
数据只存在于一个小区间内还会带来更大的问题:多峰问题。手头数据可能都集中在左边的峰,使我们错过了右边的峰,没有掌握模型的全貌。


雷达卡




京公网安备 11010802022788号







