发帖

楼主: 时光永痕

837 0

[数据挖掘新闻] 不惜一切代价避免的11个数据科学神话 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

25%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-12-23 19:04:51 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

不惜一切代价避免的11个数据科学神话
8.人工智能工作的宇宙
当您想到完美的人工智能团队时，您会想到什么？我听到的最常见的答案是吸引尽可能多的顶尖数据科学家。谁不希望在同一项目上工作的一群顶尖人才？
但这对我们大多数人来说都不是实际的解决方案。一位“独角兽”数据科学家很难获得，更不用说其中的大量信息了。您的数据科学家团队会了解项目的非AI部分吗？他们了解硬件的工作原理吗？
简而言之，一个人工智能项目具有大量的工作。它不仅限于数据科学家的角色。
打破神话
应用人工智能是一个复杂的领域。它需要在项目的整个长度和广度上与不同的学科合作。存在许多跨学科的角色：
数据工程师
数据分析师
AI / ML工程师
数据科学家
统计员
业务分析师
领域专家（例如，无人驾驶汽车项目将有机械工程师和汽车硬件专家）
物联网专家
数据科学经理/决策者
决策科学家
研究员
软件工程师
用户体验设计师
专案经理
请注意，根据项目的不同，人员的作用和人数也会有所不同。我试图传达的想法是，AI不是一块枯燥的领域。这不是一条简单的道路。如果有人试图在一个仅由数据科学家组成的项目中向您出售，可能是时候敲响警钟了。
这对于担任高级职位的人员（团队负责人，经理，CxO等）尤其重要。了解每个角色以创建成功的项目非常重要。
我建议您通过以下课程来完全掌握AI项目的工作原理。这包括如何聘请完美的AI团队，以及每位AI领导者（甚至是发烧友）都应了解的其他复杂细节：
人工智能和企业机器学习
您还可以阅读有关AI继续增长可能会受到影响的工作的信息。
9.数据科学仅与构建预测模型有关
能够预测事件是一件很重要的事情。这就是新的数据科学新人。建立可以预测客户接下来会购买什么的模型听起来像是必备技能，对吗？
实际上，当我向非技术人员描述数据科学或机器学习时，他们的第一反应非常相似。围绕这一领域的炒作是史无前例的。显然，一位数据科学家整天都在构建预测模型。
这是DJ Patil将数据科学家的角色描述为“ 21世纪最艰巨的工作”时的意思吗？好吧，不完全是。
打破神话
数据科学项目中有多个层次。模型构建部分只是整个数据科学生命周期中的一个斑点（在下一节中，我将介绍数据科学中的不同角色）。为了让您有一个大致的了解，典型的数据科学生命周期中涉及的步骤是：
了解问题陈述
假设大厦
数据采集
验证数据
数据清理
探索性分析
设计模型
测试/验证模型
如果发现错误，请返回验证或清洁阶段
投入生产（部署模型）
没有什么比他们在教室或课程中教您的要简单。经验是学习项目运作方式的最佳方法。尝试与见过端到端过程的人交谈。更好的是，获得实习机会并获得使数据科学项目成功的第一手资料。
此外，数据科学不仅限于简单地进行预测。我确定您已经遇到了市场购物分析概念。它是集群技术和关联规则的结合。还是异常检测呢？找出数据中异常值的能力。有很多东西要学！
10.参加数据科学竞赛可转化为现实项目
数据科学竞赛是您进行数据科学之旅的绝佳垫脚石。您可以在数据集上练习技能，将其展示给全世界，甚至有机会赢得大奖。
在过去的4到5年中，随着越来越多的人希望获得一部分数据科学蛋糕，这些黑客马拉松和竞赛的活动倍增。大多数有抱负的数据科学专业人员都将这些竞赛纳入简历中。
从面试的角度来看问题？招聘人员开始越来越注意您的投资组合的这一方面。
打破神话
招聘人员不考虑您的竞争经历的原因有很多。我将其简化为：
与您在比赛中看到的相比，现实世界中的项目是完全不同的野兽。
数据科学竞赛拥有干净且几乎一尘不染的数据集。如果存在缺失值，则可以使用多种技术来估算它们。重要的是模型的准确性，而不是到达模型的方式。
现实世界中的项目具有端到端的管道，涉及与一群人一起工作。我们大多数人将始终需要处理凌乱不整洁的数据。关于花费70-80％的时间只是用于收集和清理数据的古老说法是正确的。诸如数据清理和功能工程之类的任务将占用您的大部分时间。
这篇LinkedIn帖子是关于可用于分析模型的标准方法的出色读物。您也可以参考上面的部分，我们讨论了典型数据科学项目所涉及的不同阶段。
资料来源：Revolution Analytics
此外，我们不能只构建堆叠的复杂集成模型。客户要求透明，因此较简单的模型通常会胜出。可解释性是公司环境中的关键。该项目对行为不佳的模型负责。
正如我在本文中提到的，在竞争排行榜上获得良好的分数非常适合衡量您的学习进度，但是面试官会想知道如何优化算法以产生影响，而不是为了提高准确性。与数据科学专家交谈，尝试了解这些项目的工作原理，在您选择的领域中构建您的网络，并尝试构筑思路以进行相应调整。
11.数据收集轻而易举，重点应该放在构建模型上
我们将围绕构建模型的另一个神话来结束本文。这是我最近与一位较新的数据科学家进行的对话：
Pranav Dar：除了设计模型之外，您最喜欢数据科学工作的哪一部分？
DS新生：我喜欢功能工程部分。
PD：听起来不错。您通常如何收集项目数据？
Fresher DS：嗯，我通常只是从一个开源平台上下载它。
PD：好的，但是如果数据偏斜或偏斜怎么办？您如何验证数据的身份？当要求您从需要数据库技能的多个来源收集数据时，您将怎么办？
DS新生：我没想到。
不幸的是，那是我经常进行的对话。大多数经验丰富的数据科学专业人员也很清楚这种情况。期望在面试中对此主题进行彻底的测试。
打破神话
数据以前所未有的速度生成，但是收集和清理数据变得越来越容易。如果没有建立收集数据的管道，您的数据科学项目将无济于事。通常，这是数据工程师的角色（但希望数据科学家也知道此功能）。
我不能高估数据收集步骤的重要性。收集诚实准确的数据对于最终模型的正常运行至关重要。正如Wikipedia所说，“所有数据收集的目的都是获取高质量的证据，使分析能够得出令人信服且可信的答案。”
可用的数据源太多。您如何连接到每个？您从每种接收什么数据格式？从每个来源收集数据的成本是多少？这是您在现实环境中需要问的那种问题的缩影。
诸如数据库管理器，数据库架构师和数据工程师之类的角色具有新的重要性。维护数据和上述管道的完整性与后续任何其他任务一样重要。
题库

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：不惜一切代价数据科学 Revolution Evolution Wikipedia

[数据挖掘新闻] 不惜一切代价避免的11个数据科学神话 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] 不惜一切代价避免的11个数据科学神话 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群