楼主: 时光永痕
770 0

[数据挖掘新闻] 数据科学和机器学习中应避免的一般误解 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)五级

88%

威望
0
论坛币
26 个
通用积分
57.2086
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34190 点
帖子
2733
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据科学和机器学习中应避免的一般误解
什么是机器学习,数据科学或人工智能?是人们面对的最常见的问题之一。无论是新人,招聘人员,还是担任领导职务的人,这都是一个困扰每个人的问题。
对于初学者来说,它采取了如何成为数据科学家的形式?对于领导者来说,这是否对业务产生了必不可少的影响?对于本领域的人们来说,它采取了我应该称呼自己,数据科学家,数据工程师或数据分析师的形式。
这篇文章旨在澄清一些神话,并就数据科学及其在企业界的不同解释建立起基本的了解。
误解1:数据科学家/工程师/分析师是同一个人。
这是我在职业生涯中多次面对的歪曲神话,它基本上对员工和公司都有害。这就像叫软件工程师和质量检查人员一样。
顺便说一句,数据科学家是在统计,编程和机器学习这3个领域中至少有2个领域拥有经验和知识的人。此类员工的主要期望是能够解决具有挑战性的业务问题,使他/她可以利用他们的知识来找到解决方案。这样的人会愿意将他们的大部分工作花费在建立预测模型和执行统计实验以获得可行的解决方案上。它是研究工作和程序设计工作的混合体,其性质和工作量取决于公司/团队的规模。
数据工程是一个工作,人们专注于构建基础结构,以部署执行预测性建模等应用程序的应用程序,使用流数据更新仪表板,运行日常工作以生成报告并保持数据的连续流。对于一名优秀的数据工程师来说,真正掌握SQL的知识正迅速成为必需,紧接着又是Spark的知识。
数据分析师是一个更倾向于解释和分析业务结果而不是正处于创建过程中的人。这样的人将更喜欢使用工具来生成那些结果,并将花费他们的大部分时间来解释和从中获得商业价值。在数据科学家出现之前,数据分析师已经从事了很长时间,并且选择的主要工具是Excel。实际上,即使对于今天的少量数据,excel也是最有效的。当前,有诸如PowerBI,Azure之类的工具可提供对大数据执行分析的功能。但是,此职位的主要重点是准确传达日常结果以及他们测试的新假设的结果。这些输入至关重要,并为企业做出重要决策奠定了基础。
误区二:深度学习是机器学习或人工智能
毫无疑问,深度学习已成为当今的盛名,并且围绕着它的所有炒作和市场营销,它还使人们相信深度学习是解决每个数据科学/机器学习问题的最终解决方案。真相不能比这更遥远。
毫无疑问,深度学习是当今机器学习范围内最难理解的概念之一,仅此而已。深度学习之所以得名,是因为该框架中隐含的“神经网络”包含多层,因此被称为“深度”网络。通过tensorflow,pytorch或keras提供的只是一个框架,可以轻松地应用此概念。
毫无疑问,学习框架是困难的,框架也是有效的,但这不等于获得机器学习方面的专业知识。机器学习是一个广阔的领域,它吸收了统计,信息理论,优化,信息检索,神经网络等许多领域的概念和算法,并且算法丰富,每种算法在特定用途中比其他算法更有用。案件。
例如,深度学习在计算机视觉和语音识别方面一直非常有效,但是将其用于情感分析或可以通过线性回归解决的简单预测问题绝对是过大的杀伤力。
在确定用于该问题的算法之前,将时间花在探索性分析上并理解问题的范围始终是一个明智的决定。
这张照片最好地说明了这一点。
误区三:数据科学可以在3个月内恢复。
尽管我希望这是事实,但事实并非如此。要成为一名高效的数据科学家,不仅需要通过scikit-learn和tensorflow导入库并调用其训练和预测功能,还需要了解更多。
这是那些结果不确定的虚幻领域之一,这意味着相同的步骤顺序将不会总是以相同的结果结束。这在很大程度上取决于所提供数据的质量和数量,在调用“火车”功能之前,需要发生很多事情。
当然,您可以学习如何调用库并编写步骤序列以生成模型,但是该模型并不总是有效的。为了正确理解事物,需要对正在应用的算法的工作和依赖性有相当的了解。必须掌握这些知识,否则调整模型或向领导层解释结果将成为真正的痛苦。
我一直记得这个答案,如何在一夜之间学习编码
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 数据科学 scikit-learn powerbi Tensor

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-21 08:52