基于这些,我解决了“统计与数据科学之间的差异”的问题。传统上,包括我在内的大多数人都会说“统计学首先出现,而数据科学则建立在统计学之上”。这种思路是正确的,但是正如您在下面看到的那样-错过了更大的画面-强调的思路。注意-在这里,我们为了学习而讨论了一种纯粹的方法。在实践中,领域和工具正在融合
纯粹的统计方法和数据科学家方法之间的两个主要区别是:
大数据的使用(在数据科学中很常见)和
推论统计的使用(在统计中很常见)。
因此,在这种背景下,从纯粹的统计角度来看,这与典型的数据科学方法存在一些差异
小数据:我们已经习惯于大数据的世界-我们并不完全欣赏另一个世界的存在-“小数据”的世界。但是在某些领域,小数据非常普遍,尤其是在医学,临床试验等领域,因为此过程风险大且成本高。因此,最终只能得到20或30个样本(少量数据)。这导致对推论统计的更大依赖
推论统计的使用: 推论统计使用从总体中抽取的随机数据样本来描述和推断总体。当不方便或不可能对整个人群的每个成员进行检查时,推论统计就很有价值。例如,测量在磨机中制造的每个钉子的直径是不切实际的。您可以测量代表性的随机指甲样本的直径。您可以使用样本中的信息来概括所有钉子的直径。资料来源:minitab。 由于数据量较小(如上), 统计信息更多地使用了推论/常识性方法
对领域知识的依赖增加:前两点还导致对统计领域的依赖程度更高,例如在功能选择方面。
验证性数据分析:探索性数据分析得到验证性数据分析的补充
越来越多地依赖统计测试,其中许多测试是特定于领域的
统计数据需要解释模型,而不是黑匣子模型。
数据科学强调自动化 –与统计相反,由于上述因素(例如,对领域知识的更多使用),统计需要更多的人工干预
处理离群值和插补:更加强调手动校正离群值和插补(缺失值)
关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!