楼主: CDA网校
3161 13

[数据挖掘理论与案例] 如何学习数据科学:从数据挖掘到机器学习 [推广有奖]

管理员

大师

61%

还不是VIP/贵宾

-

威望
3
论坛币
30923 个
通用积分
3023.5069
学术水平
260 点
热心指数
268 点
信用等级
235 点
经验
194614 点
帖子
5089
精华
19
在线时间
3685 小时
注册时间
2019-9-13
最后登录
2024-4-23

初级热心勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据科学是一个复杂而多样的领域。如果您想学习数据科学并成为数据科学家,那么很容易陷入机器学习或数据处理的困境。

在某种程度上,那很好。要成为一名有效的数据科学家,您需要好奇。您需要准备好应对各种不同的任务和挑战。

但这并不总是那么有效:如果您想快速有效地学习,则需要一个可以遵循的清晰结构(一门课程)。

这篇文章将向您展示您需要学习什么以及如何去做。

统计

统计可以说是数据科学的基石。数据科学家为“统计专家们感到不快”,这种说法也许不公平,但仍然包含着一个真相:数据科学家一直在统计领域工作。

一旦了解了这一点,您将需要轻松学习其他所有内容。机器学习,数据处理,数据可视化–这些最终都是真正能够很好地执行统计分析的技术方法。

最佳书籍和视频内容,用于学习统计数据

数据科学统计

R统计手册

R语言编程与统计分析入门[视频]
R语言统计分析入门[视频]
银行业之进件评分卡制作-基于R语言[视频]

在更深入地研究数据科学之前,至关重要的一点是要在统计上打下坚实的基础。

数据挖掘和整理

这是数据科学的重要元素,经常被关于机器学习的所有宣传所忽视。但是,如果没有有效的数据收集和清理功能,那么您在其他地方所做的所有努力充其量都是毫无意义的。在最坏的情况下,它们甚至可能会产生误导或问题。

有时称为数据操纵或数据处理,实际上是有关管理和清除来自不同来源的数据的全部内容,因此可用于分析项目。

要做好它,您需要清楚地知道要到达的位置–是否需要重组数据?排序还是删除数据集的某些部分?一旦了解了这一点,就可以更有效地处理数据。

数据挖掘和整理工具

有许多不同的工具可用于数据整理。Python和R是两种主要的编程语言,并且都具有一些用于数据挖掘和处理的有用工具。尤其是Python,它拥有大量用于数据挖掘和处理的工具,例如pandas和NLTK(自然语言工具包),但这并不是说R在此领域没有强大的功能。

也可以使用其他工具-例如,Weka和Apache Mahout很流行。Weka用Java编写,因此如果您有使用该编程语言的经验,那么它是一个不错的选择,而Mahout可以很好地与Hadoop生态系统集成。

数据挖掘和数据整理书籍和视频
如果您需要学习数据挖掘,整理和操作,提供了一系列产品。

以下是一些最好的方法:

用R处理数据

用Python处理数据

Python数据挖掘快速入门指南

机器学习进行数据挖掘

机器学习和人工智能

尽管机器学习和人工智能本身就是巨大的趋势,但它们仍然与数据科学紧密结合。的确,您甚至可以说,它们今天的重要性源于十年前我们第一次亲眼目睹的围绕数据科学的激动。

数据科学家的工作是以可以推动业务价值的方式使用机器学习和人工智能。例如,这可能是向客户推荐产品或服务,也许是为了更好地了解现有产品,或者甚至通过预测建模更好地管理战略和财务风险。

因此,虽然我们可以在大量的数字产品和平台中看到机器学习(所有这些都需要智能开发和设计)才能使其成功运行,但它需要有能力和创造力的数据科学家的支持。

面向数据科学家的机器学习和人工智能书籍

机器学习算法

R机器学习–第三版

使用Apache Spark进行机器学习快速入门指南

使用TensorFlow 1.x进行机器学习

Keras深度学习食谱

机器学习实战体验课[免费视频]

机器学习实战[视频]

机器学习sklearn体验课[免费视频]

机器学习sklearn[视频]

数据可视化

一位才华横溢的数据科学家不仅是出色的统计学家和工程师,而且还是出色的沟通者。这意味着所谓的软技能非常有价值-与关键利益相关者交流见解和想法的能力至关重要。

但是,良好的沟通不仅与软技能有关,还与数据可视化有关。数据可视化从根本上讲是以讲故事,阐明问题或说明解决方案的方式组织和呈现数据。

您务必不要忽略此步骤。的确,花时间学习有效的数据可视化还可以帮助您发展软技能。实际上,讲故事和通过可视化进行交流的原理在应用于其他场景时完全相同。

数据可视化工具

有大量可用的数据可视化工具。与机器学习一样,了解它们之间的差异并找出适合您的解决方案实际上是学习过程的重要组成部分。因此,不要害怕花一些时间使用一系列数据可视化工具。

许多最受欢迎的数据可视化工具都是为产品付费的。其中最著名的也许是Tableau(偶然是今年早些时候被Salesforce收购了)。Tableau及其竞争对手非常易于使用,这意味着进入门槛很低。它们使您可以相当轻松地创建一些非常复杂的数据可视化。

但是,坚持使用这些工具不仅昂贵,还会限制您的能力。我们建议您尝试使用多种不同的数据可视化工具,例如Seabor,D3.js,Matplotlib和ggplot2。

面向数据科学家的数据可视化书籍和视频
使用R和ggplot2进行应用数据可视化
Python进行数据可视化[视频]
Python可视化50图[视频]
Tableau数据可视化实战[视频]
使用Python进行数据可视化

如果您想学习数据科学,请立即开始!
正如我们已经看到的,数据科学需要许多非常不同的技能,并且需要大量的工具。这意味着,如果您要成为一名数据科学家,则需要做好准备永远致力于学习:您永远都无法达到了解一切的地步。

尽管这听起来令人生畏,但重要的是要有信心。有了方向感和目标感,并为您工作的学习结构,就可以开发和建立数据科学功能,从而释放新的机会,并为一些真正令人兴奋的项目奠定基础。菜菜

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 数据挖掘 数据科学 如何学习 学习数据

沙发
时光人 学生认证  发表于 2020-10-19 18:52:59 |只看作者 |坛友微信交流群
统计可以说是数据科学的基石。

使用道具

藤椅
CDA网校 学生认证  发表于 2020-10-19 18:54:11 |只看作者 |坛友微信交流群
时光人 发表于 2020-10-19 18:52
统计可以说是数据科学的基石。

使用道具

板凳
Studio-R 在职认证  发表于 2020-10-19 18:56:50 |只看作者 |坛友微信交流群
数据科学的基石是统计学!

使用道具

报纸
三重虫 发表于 2020-10-19 21:22:24 |只看作者 |坛友微信交流群

使用道具

地板
benji427 在职认证  发表于 2020-10-20 11:52:01 |只看作者 |坛友微信交流群
thank you for sharing

使用道具

7
qgjtso111 发表于 2020-10-20 13:47:49 |只看作者 |坛友微信交流群

数据科学的基石是统计学!

使用道具

8
shjrxytjyb 发表于 2020-10-20 15:04:42 |只看作者 |坛友微信交流群

使用道具

9
王慧雯 发表于 2020-10-21 13:54:55 |只看作者 |坛友微信交流群
顶顶顶顶顶顶顶顶

使用道具

10
myazure 发表于 2020-10-21 16:12:18 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 07:18