楼主: 时光永痕
535 0

[数据挖掘新闻] 不惜一切代价避免的11个数据科学神话 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

21%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
不惜一切代价避免的11个数据科学神话
8.人工智能工作的宇宙
当您想到完美的人工智能团队时,您会想到什么?我听到的最常见的答案是吸引尽可能多的顶尖数据科学家。谁不希望在同一项目上工作的一群顶尖人才?
但这对我们大多数人来说都不是实际的解决方案。一位“独角兽”数据科学家很难获得,更不用说其中的大量信息了。您的数据科学家团队会了解项目的非AI部分吗?他们了解硬件的工作原理吗?
简而言之,一个人工智能项目具有大量的工作。它不仅限于数据科学家的角色。
打破神话
应用人工智能是一个复杂的领域。它需要在项目的整个长度和广度上与不同的学科合作。存在许多跨学科的角色:
数据工程师
数据分析师
AI / ML工程师
数据科学家
统计员
业务分析师
领域专家(例如,无人驾驶汽车项目将有机械工程师和汽车硬件专家)
物联网专家
数据科学经理/决策者
决策科学家
研究员
软件工程师
用户体验设计师
专案经理
请注意,根据项目的不同,人员的作用和人数也会有所不同。我试图传达的想法是,AI不是一块枯燥的领域。这不是一条简单的道路。如果有人试图在一个仅由数据科学家组成的项目中向您出售,可能是时候敲响警钟了。
这对于担任高级职位的人员(团队负责人,经理,CxO等)尤其重要。了解每个角色以创建成功的项目非常重要。
我建议您通过以下课程来完全掌握AI项目的工作原理。这包括如何聘请完美的AI团队,以及每位AI领导者(甚至是发烧友)都应了解的其他复杂细节:
人工智能和企业机器学习
您还可以阅读有关AI继续增长可能会受到影响的工作的信息。
9.数据科学仅与构建预测模型有关
能够预测事件是一件很重要的事情。这就是新的数据科学新人。建立可以预测客户接下来会购买什么的模型听起来像是必备技能,对吗?
实际上,当我向非技术人员描述数据科学或机器学习时,他们的第一反应非常相似。围绕这一领域的炒作是史无前例的。显然,一位数据科学家整天都在构建预测模型。
这是DJ Patil将数据科学家的角色描述为“ 21世纪最艰巨的工作”时的意思吗?好吧,不完全是。
打破神话
数据科学项目中有多个层次。模型构建部分只是整个数据科学生命周期中的一个斑点(在下一节中,我将介绍数据科学中的不同角色)。为了让您有一个大致的了解,典型的数据科学生命周期中涉及的步骤是:
了解问题陈述
假设大厦
数据采集
验证数据
数据清理
探索性分析
设计模型
测试/验证模型
如果发现错误,请返回验证或清洁阶段
投入生产(部署模型)
没有什么比他们在教室或课程中教您的要简单。经验是学习项目运作方式的最佳方法。尝试与见过端到端过程的人交谈。更好的是,获得实习机会并获得使数据科学项目成功的第一手资料。
此外,数据科学不仅限于简单地进行预测。我确定您已经遇到了市场购物分析概念。它是集群技术和关联规则的结合。还是异常检测呢?找出数据中异常值的能力。有很多东西要学!
10.参加数据科学竞赛可转化为现实项目
数据科学竞赛是您进行数据科学之旅的绝佳垫脚石。您可以在数据集上练习技能,将其展示给全世界,甚至有机会赢得大奖。
在过去的4到5年中,随着越来越多的人希望获得一部分数据科学蛋糕,这些黑客马拉松和竞赛的活动倍增。大多数有抱负的数据科学专业人员都将这些竞赛纳入简历中。
从面试的角度来看问题?招聘人员开始越来越注意您的投资组合的这一方面。
打破神话
招聘人员不考虑您的竞争经历的原因有很多。我将其简化为:
与您在比赛中看到的相比,现实世界中的项目是完全不同的野兽。
数据科学竞赛拥有干净且几乎一尘不染的数据集。如果存在缺失值,则可以使用多种技术来估算它们。重要的是模型的准确性,而不是到达模型的方式。
现实世界中的项目具有端到端的管道,涉及与一群人一起工作。我们大多数人将始终需要处理凌乱不整洁的数据。关于花费70-80%的时间只是用于收集和清理数据的古老说法是正确的。诸如数据清理和功能工程之类的任务将占用您的大部分时间。
这篇LinkedIn帖子是关于可用于分析模型的标准方法的出色读物。您也可以参考上面的部分,我们讨论了典型数据科学项目所涉及的不同阶段。
                                                                                                                                          资料来源:Revolution Analytics
此外,我们不能只构建堆叠的复杂集成模型。客户要求透明,因此较简单的模型通常会胜出。可解释性是公司环境中的关键。该项目对行为不佳的模型负责。
正如我在本文中 提到的,在竞争排行榜上获得良好的分数非常适合衡量您的学习进度,但是面试官会想知道如何优化算法以产生影响,而不是为了提高准确性。与数据科学专家交谈,尝试了解这些项目的工作原理,在您选择的领域中构建您的网络,并尝试构筑思路以进行相应调整。
11.数据收集轻而易举,重点应该放在构建模型上
我们将围绕构建模型的另一个神话来结束本文。这是我最近与一位较新的数据科学家进行的对话:
Pranav Dar:除了设计模型之外,您最喜欢数据科学工作的哪一部分?
DS新生:我喜欢功能工程部分。
PD:听起来不错。您通常如何收集项目数据?
Fresher DS:嗯,我通常只是从一个开源平台上下载它。
PD:好的,但是如果数据偏斜或偏斜怎么办?您如何验证数据的身份?当要求您从需要数据库技能的多个来源收集数据时,您将怎么办?
DS新生:我没想到。
不幸的是,那是我经常进行的对话。大多数经验丰富的数据科学专业人员也很清楚这种情况。期望在面试中对此主题进行彻底的测试。
打破神话
数据以前所未有的速度生成,但是收集和清理数据变得越来越容易。如果没有建立收集数据的管道,您的数据科学项目将无济于事。通常,这是数据工程师的角色(但希望数据科学家也知道此功能)。
我不能高估数据收集步骤的重要性。收集诚实准确的数据对于最终模型的正常运行至关重要。正如Wikipedia所说,“所有数据收集的目的都是获取高质量的证据,使分析能够得出令人信服且可信的答案。”
可用的数据源太多。您如何连接到每个?您从每种接收什么数据格式?从每个来源收集数据的成本是多少?这是您在现实环境中需要问的那种问题的缩影。
诸如数据库管理器,数据库架构师和数据工程师之类的角色具有新的重要性。维护数据和上述管道的完整性与后续任何其他任务一样重要。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:不惜一切代价 数据科学 Revolution Evolution Wikipedia

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-24 09:06