编辑部按:本次讲座的题目是“在疑问中生存——和奋进的伙伴们聊天”,由吴喜之老师主讲。吴喜之老师是中国人民大学统计学院教授、博士生导师,北卡罗来纳大学统计学博士,本科毕业于北京大学数学力学系,曾在美国加利福尼亚大学、北卡罗来纳大学、密西根大学以及南开大学、北京大学等多所著名学府执教。主持人孔令仁,录音记录的文字整理由志愿者叉烧、Ruixiao、Carolsun、47、康贺铭、drl、戴诗桐、曾令琴共同完成,Ruixiao 进行订正,感谢各位志愿者的辛勤付出。B站观看地址:https://www.bilibili.com/video/B ... id_from=333.999.0.0
![]()
谢谢大家。在事先准备的讲稿之前,首先,我会先回答组织者事先收集的同学们的一些问题,这样可能更为妥当,也希望这能够激发更多问题。对这些问题的讨论大约相当于原来讲稿的规模,我尽量控制好时间。
问题范畴一:数据科学
Q1: 数据科学、统计、人工智能、大数据、机器学习、深度学习、数据挖掘、数据分析。学术界和商业界这些名词很容易让初学者疑惑,请问您如何看待这些纷繁的名词以及之间的关系?
A1: 这些名词或者术语是不同领域的人群在不同的历史时期为了不同的目标所发明创造的,其含义随时间与个人而变。不同的人对这些名词的定义和理解都不相同(也不可能相同)。保持这种模糊性对某些人是需要的。
但对于每个人来说,做自己想做的事情本身,比别人对它取什么名字或标签更重要,是不是?
我们最需要的是:1. 纯粹数学的逻辑、2. 目标确定的使命感、3. 熟练的编程能力。实际上,是否学习了具体统计课程(除了有学分要求的课程)的影响并不是很大。
Q2: 学校和企业都在研究和实践数据科学,您曾在多个学校执教,也在企业工作过。您如何看待二者各自的优势和不足?以及两者之间应该如何互动?
A2: 首先,我认为,对于学校来说,不掌握第一手数据、且以发表论文数量及杂志级别为主要考核标准的学校,通常落后于社会需求。实际上,这一点和教师也有关联,有权力、有资源的(只专注显著性统计的)资深教师中,有多少愿意抛弃自己熟悉的套路、而去学习编程,去从事自己所不熟悉的数据分析?从这一点来看,陈旧的(却是最容易通过考核的)教案及教学方式束缚了一些有能力但没有权力和资源的年轻人的手脚。
其次,在其他领域,如金融界、互联网行业、大企业、医学界、政府等,都拥有大量数据,但是,哪些部门又能够充分利用这些数据呢?哪些部门愿意分享这些数据给学校去做学术研究呢?不妨考虑一下,企业、学校等单位的领导普遍最为关心的是什么?
总而言之,最根本也无法绕过的问题,是真正数据科学人才的普遍缺乏。有了人才,也许所有的问题都可以被解决。
Q3: 您认为数据科学的原则是什么?郁彬老师给出的是可预测性、可计算性、稳定性。也有其他学者提到可解释性、泛化性等。
A3: 首先,可预测性是应用的需要,而可计算性和稳定性确保预测精度。
以阿尔法狗为代表的人工智能,其主要目的是预测。如果阿尔法狗下不过一个普通棋手,那么,谈论其“优良性质”是没有意义的,但是现在,阿尔法狗赢了,就没人批评其“不透明”或“没有可解释性”了。
这就类似于不懂机器学习的人喜欢说机器学习是黑匣子,并以此来掩饰自己的无知。我认为,所谓“线性回归可解释性”实际上是皇帝的新衣。我们来看看下面的例子:
例1:通常情况下,人们认为,在多重线性回归中,当其他变量不变时,某变量的系数含义是:该变量增加一个单位时,其对因变量的贡献。
下面展示了数据 mtcars 各自变量单独和多重回归系数的估计。
![]()
这个数据有很多变量,如果利用这些变量进行多重回归,就可以得到很多系数(和你们平时所做的那样)。但是,如果单独将每一个变量与相同的因变量做回归、得到相应系数,再对比这两个系数,会发现它们相差甚远。你们可以看看这张图,除了数值大小,有很多甚至连符号都不同。因此,我们通常默认的多重回归的可解释性,完全可能只是个伪命题。除此之外,如果从逻辑上分析,这里所说的“多重回归系数的意义”论述,也具有以下逻辑谬误:
在自变量中,“其他变量不变”到底指什么?(特别是在基于线性回归的计量经济学数据中),因为这些经济数据里,几乎没有什么变量是相互独立的。
为什么单独回归和多重回归的系数有如此大的差距?而且,还偏要用多重回归的系数来解释单一变量的贡献程度。
是不是自变量互相独立时,该论述就成立了?请看下面随机(可随意试不同随机种子)生成了独立自变量数据的人造例子,并用随机数据进行了多重和单独变量回归。
![]()
对独立自变量做单独和多重回归的系数比较:
![]()
注:红色是多重回归的系数,蓝色是单独回归的系数,可以看到,它们的差距依然相当大。
除了数值大小以外,有些自变量系数甚至连符号都是相反的。有人可能会质疑:这个实验中的随机种子的选取有些怪异。我可以更改,请看下图,我使用了其他的随机种子。
![]()
这里是各种不同的随机种子,但是,请大家注意这些变量的系数所对应的红色和蓝色值,它们依然很少有相同的。因此,可以认为,多重线性回归中、单独变量的系数大小,确实是没有任何意义的。大家也可自行探究,若要使单独回归和多重回归中相同变量对应的系数也相同,需要怎样的条件?
我的结论是:这两种回归下系数相同的充分必要条件,是系数矩阵为正交矩阵。但是,这种情况在任何实际应用中都很难遇到。
请大家进一步思考:单独自变量的系数大小在多重回归当中没有意义,这件事说明了什么?
首先,我们会质疑关于系数大小的显著性检验,到底有多大意义?同时,我们也会想到,回归分析的教材里,到底有多少垃圾?我们的大部分回归分析教材都主要在讲显著性检验,而不讲(交叉验证的)预测精度。为什么只沉醉于不存在的“系数可解释性”上?也许是因为(预测精度)并不是被(教材内容的)最原始的创造者所发明的;至于普遍意义下的交叉验证,如果没有计算机,可能根本就无法实现。
Q4: 数据科学和科学的关系是什么?数据科学的弱点和不足是啥?目前看来部分基础学科(数学、物理)的重大成就似乎还没有数据科学的身影,如何看待这一现象?数据科学如何和其他的科学工具更好结合?
A4: 以物理为代表,可以看到,自然科学的任何分支都是以确定的自然规律作为对象的。而数学本身不是科学,是因为它并没有对象,但它是一切领域的工具。不能否认的是,数学很美、也很有用,至于使用者是谁、也许并不重要。因此,数学家的目的不在于“数学是否有用”,他们关心的是数学的美,尽管这对外行人而言通常无法欣赏。但是,数据科学所面对的,很多都是知之甚少的自然规律,比如医学、生物、以及没有统一标准的人文社会科学和经济学。而传统统计不以预测为主要目标,因此,传统统计学在各种以预测为目标的领域内,都不是很显眼。在预测方面基本上都是机器学习方法在起作用,机器学习方法尤其在人工智能等领域内、更是令人瞩目,比如阿法狗这样的应用。但是,这些成就对于研究显著性统计的人而言,对于那些认为自己是数据科学的代表、但是又不懂或不喜欢机器学习的人而言,他们自然不会认为这是他们的成就。
问题范畴二:教育
Q5: 时代变化很快,新知识层出不穷,但高校的教材一般来说比较陈旧,尤其是在前沿应用实践领域方面。请问在校学生应该如何更高效的学习,和时代接轨?
A5: 我觉得任何知识印到教科书上就已经落后了,那些讲了多少年的陈年旧书只能当古董来欣赏。满堂灌的课堂是学不到什么东西的。成功学习最主要的因素是兴趣及自学能力。而不是上了多少课!找最感兴趣的和最需要的来学,最及时的也是最新的知识源泉是网络。一定要在用中学,在公司的好处是有对象(一般非资讯类公司问题面较窄),在学校的缺点是没有目标,优点是没有约束,但须自己寻求目标(你可以自己寻求目标,所以学校的老师有它的优越性)



雷达卡



京公网安备 11010802022788号







