1. 概率与统计
概率和统计是两个密切相关的数学概念。没有另一个,你无法完全理解一个,它们齐头并进,为你提供处理数据的技术。知道没有数据就没有数据科学家,这两项技能构成了您最基本的先决条件。
您应该熟悉的一些相关概念;
随机变量
基本和条件概率
概率分布
抽样方法
中心趋势、变异性和置信区间的测量
假设检验
中心极限定理
实验设计
2. 微积分与线性代数
另外两个对于专业数据科学家来说必不可少的数学概念。微积分和线性代数是大多数(如果不是全部)机器学习算法的支柱。因此,理解这些算法需要在这两个概念上拥有强大的技术专长。话虽如此,对这些的一般理解可能就足够了,因为可以使用在幕后进行这些数学运算的库。
同样,一些与数据科学更相关的概念;
单变量和多变量微积分
导数与积分
向量空间
点积
特征向量
3. 编程
可以说是数据科学家最重要的技能。除了拥有处理数据的知识外,数据科学家还需要拥有将他们的理论知识转化为实际实施的工具和技能。这通常使用某种形式的编程来完成,因此,编程成为数据科学家备受追捧的技能之一。
首先,我强烈建议您学习 Python 作为您的第一门编程语言。Python 易于阅读、编写、理解,并为数据分析工作提供最全面的支持。选择 Python 作为主要编程语言几乎永远不会出错。
另一种流行的数据科学编程语言是 R。R 被统计学家广泛用于数据分析,但是,它不像 Python 那样是通用编程语言。
无论使用哪种语言,以下都是您需要了解的一些编程技术;
基本语法、函数、I/O
流量控制语句
面向对象编程 (OOP)
用于处理 Python 的 numpy 和 pandas 等数据的库
正则表达式
文档(阅读和写作)
4.数据可视化
数据科学家将可视化用于两个主要目的;探索和讲故事。在数据探索方面,可视化被证明是从数据中快速获得洞察力的好工具。然后,数据科学家根据获得的见解决定如何测试或预处理数据。至于数据讲故事,可视化能够将数千或数百万行数据转换为易于理解的形式供您的受众使用。仅这两个好处就使可视化成为您的数据科学工具包的重要补充。
掌握可视化的概念,
常见图表类型(例如条形图、散点图、折线图、直方图)
高级数据可视化(例如热图、地图、词云)
颜色的使用
数据可视化工具(Power BI、Tableau、Libraries matplotlib/seaborn for Python、ggplot for R)
数据墨水比
5.机器学习
维基百科将机器学习定义为“计算机系统用来执行特定任务的算法和统计模型的科学研究,而不使用明确的指令,而是依靠模式和推理”。这个定义完美地传达了机器学习的复杂性和美感。
在我看来,机器学习单枪匹马地推动了数据分析和人工智能的进步。此外,机器学习很可能是这个博客存在的原因;帮助在炒作之后进入该领域的大量学习者。我以积极的语气说这句话,因为我们真诚地认为,无论他们的专业领域如何,每个人都应该具备一些数据科学知识。这是因为机器学习提供了改变行业和我们对行业的看法的手段。
所有的兴奋似乎都来自机器学习,但是,我强烈建议在深入机器学习之前建立你的基础。
一些帮助您入门的算法:
线性模型(线性回归和逻辑回归)
支持向量机 (SVM)
决策树
神经网络
编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了
DA内容精选


雷达卡



京公网安备 11010802022788号







