这本教材的主编是吴喜之教授。吴老是美国北卡罗来纳大学统计博士。中国人民大学统计学院教授,博士生导师。国内统计学界的学术带头人,也是国内推广R语言的先驱。研究涉及几乎所有统计方向。教过各个水平的所有统计课程。专著、教材(如果包括再版)有近30本,还有几本翻译课本。 数据科学导论的定位是本科各专业二、三年级数据科学的入门课程,目的在于介绍数据科学的基本思维和基本概念,并通过案例来理解数据科学实践,初步掌握基本的软件工具,最终提高学生的数据科学思维。吴喜之教授用R与Python两种软件逐步讲解了文中的案例,具有很强的可操作性。本书共分为五部分16章,第一部分是本书的安排及软件,包括前两章,第一章描述了本书的对象以及如何学好本书的内容。第二章分别介绍了R和Python两种软件,尤其是R软件,吴老将这些年使用的经验总结悉数传授,使人醍醐灌顶。第二部分是数据及探索性数据分析,包括第三、第四章。第三章主要对数据科学最基本的数据汇总和图形描述进行了介绍。第四章介绍了数据的整理和清理案例。这是本书与其他教材最大的区别。吴老不怕麻烦,从三个真实的案例入手,一步一步演示如何整理和清理数据,这是任何一个从事数据数理的人都必须要掌握的技能。第三部分和第四部分分别是有监督学习和无监督学习。这两部分是本书最重要的两部分。吴老用简单的事例将复杂的原理讲得非常清楚。例如,在讲模型是如何被训练出来的,吴老这样说:"我们想象一个厨师, 希望建立一个尽可能被大家接受的菜谱, 于是找了一群人来吃他做的饭 (这群人可称为模型的训练集), 人们一边吃一边提意见, 厨师则不断根据食客的意见加以改进, 最终厨师有了一个绝大多数 (例如90%)食客都满意的菜谱. 这个菜谱模型就被这些食客训练出来了. 这群人的满意程度就是这个模型拟合好坏的标准. 这个模型的错误率只是10%. 但是, 如果把这个菜谱应用于另一组人群, 即将这个模型用于另一组人群 (可称为该模型的测试集), 那满意度就不一定是90%了, 很可能要低一些. 想象下面的情景: 厨师原先训练集的人都是湖南人, 而测试集的人都是江浙人. "最后一部分是网络爬虫,这是一个不断发展变化的题目,这里只介绍了一些简单的过程。除了这些内容,本书的封底部分用二维码的形式提供了本书所有的数据,以后还会陆续提供课件等辅助资源。总之,这是一本提升数据科学素养必备的教材。


雷达卡





京公网安备 11010802022788号







