楼主: 时光永痕
906 0

[数据挖掘新闻] 开始您的第一个数据科学项目?这是您必须绝对知道的10件事 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

48%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
开始您的第一个数据科学项目?这是您必须绝对知道的10件事
您能想象在没有Google Maps的城市中导航吗?感觉像是一个外星人的概念!我们没有方向感,所有道路似乎都从我们想去的地方走开。
这通常是第一个数据科学项目的感觉。我可以亲自证明这一点,并且我知道,大多数数据科学爱好者完全基于在线课程学习时,会像鹿一样被吸引。
用Python构建机器学习模型是很棒的-但是在行业中这样做完全是一回事。如果您认为学习Python和机器学习的基础知识将使您成为第一个数据科学项目或使您成为数据科学的摇滚明星,那么您一定会感到震惊。
数据科学项目准备
对我来说,当我作为数据科学家加入一个组织时,这种现实就开始流行了。建立一个机器学习模型已经远远不够了(甚至还不够紧密)。还有很多其他事情,例如数据收集,清理,探索以及我以前忽略的许多艰巨的工作。
我很快意识到的一些事情-解决问题的能力,创造力,结构化的思维方法和良好的讲故事的能力,将比仅仅应用新颖的算法更有帮助。相信我,不要掉以轻心!
在本文中,我将分享我希望在我开始数据科学职业时知道的10个关键点。我希望这将对您自己的数据科学之旅有所帮助。
我们在课程和自我练习中学习的数据科学与我们在行业中工作的数据科学有很多差异。我建议您阅读这些非常清晰的免费课程,以了解有关分析,机器学习和人工智能的所有信息:
AI / ML免费课程简介| 移动应用
商业领袖移动应用程序AI / ML简介
商业分析免费课程简介| 移动应用
1.假设的产生比您想象的更重要
噢,男孩-如果我能从屋顶上大喊大叫,我会在肺部的顶部尖叫。假设生成是数据科学项目中至关重要的一步。但是,几乎所有数据科学新手对此都没有做好准备。
任何数据科学项目开始时的全能问题应该是–您的分析背后的假设是什么?
简而言之,假设是分析师对他或她正在研究的问题的一种可能观点或主张。这可能是正确的,也可能不是正确的。
假设如果您采用非假设驱动的方法,那么在没有任何先验知识的情况下,您将注视着要分析的数百甚至数千个变量。对于分析师而言,这是一项极其艰巨的任务,对吧?
假设驱动的方法更具生产力。您将首先形成一个假设或假设,然后相应地记下分析所需的潜在变量。这些变量可能会或可能不会。完成此活动后,您最终将遍历数据并选择所需的变量。如果变量不可用,那么您可以选择特征工程或寻找收集数据的新方法。
这个假设是您整个项目的基础,因此请不要浪费时间,精力,并向团队成员寻求帮助。在行业中,您将与多个团队合作提出这些假设。
数据科学项目准备工作-假设生成
例如,假设您是数据科学团队的成员,该团队正在保险公司研究欺诈检测模型。在这里,您将与运营团队,领导团队,主管,甚至销售代理商合作。您的团队将必须与所有这些部门一起提出假设,并找出您具有(或可以收集)哪些变量来验证所有这些假设。
我发现了关于假设生成的精彩讨论-您可以在此处阅读更多有关它的信息。
2.掌握数据科学工具的知识;解决业务问题的能力是无价的
数据科学工具会来来去去,但基础知识将永远存在。
可以使用无数种工具来构建数据科学项目。诸如SPSS和SAS之类的工具曾是黄金时代,现在R和Python成为风头正劲。现在据说茱莉亚接管了他们两个。比赛永无止境。
学习该工具花费的时间最少,但是了解领域和业务问题则需要多年的经验。该领域的知识将帮助您进行假设生成,数据分析,特征工程,并最终将结果作为一个很好的故事传达给利益相关者。
假设您以数据科学家的身份加入了一家电子商务公司。您是负责为零售产品构建推荐引擎的团队的成员。如果您不了解业务运作方式,所发挥的不同变量等等,那么您将如何发展?
您需要努力了解业务,业务的各个方面是什么,到底是什么问题,然后将其分解为数据问题。您的结构化思维能力将在这里极大地帮助您。
3.准备进行大量数据清理
数据清理是可以“完成或破坏”整个分析的任务。
数据科学项目准备-数据清理
“数据”是整个问题解决和分析的关键。如果将脏数据输入到模型中,那么很明显它将吐出无用的结果。因此,您不应回避花费时间来使数据变得更加有价值。
一开始,我们通常会练习一些简单的数据集,这些数据集是公开可用的,但是与您想象中的真实数据相距甚远。该行业并非黑客马拉松,您将获得大多数清晰数据并获得明确定义的结果。您需要作为一个团队(或您自己)来完成所有这些工作,包括花费大量时间进行数据清理。
最常见的数据清理活动包括缺失值估算,离群值处理,对分类特征进行编码等。这些听起来对您来说很基本,但实际上可能会影响您的数据科学项目。
实际数据可能包含该数据集特有的错误,您可能必须使用手动规则来找出这些错误。高效的数据科学家永远不会错过数据眼球。??
4.探索失败;准备失败
数据探索是数据科学中最被低估的步骤。
初学者错过的最关键的步骤只是数据探索。它是数据分析过程的基础,它可以帮助您在数据科学项目开始时获得至关重要的见解。
数据探索通常是任何类型的数据分析的第一步。此活动有助于更广泛地理解数据集。它有助于展开某些图案,并且通常隐藏在普通外观中的特征。
数据科学项目准备-数据探索
一个好的数据探索练习将带出有关变量及其相互关系及其对我们结果的影响的信息。我个人觉得这一步非常有趣,因为您将成为这里的侦探,并且它还包含很多可视化功能!
5.模型部署是关键–学习软件工程
如果您不喜欢编码,那么我会给您带来一些坏消息。是的,如果您想在数据科学领域取得成功,那么学习编程无处不在。
您已经成功建立了数据模型。怎么办?
让我们花一点时间来思考以上问题。经过大量的努力,您终于在Jupyter笔记本电脑中创建了一个高精度模型。下一步是什么?您将把Jupyter笔记本发送给客户吗?您还需要注意哪些其他事项?
数据科学项目准备-模型部署
这是每个数据科学家在他或她的新项目中遇到的关键障碍,因为作为初学者,没有人需要部署他们的模型。那么该怎么办?
学习一些基本的软件工程和计算机科学技能很重要。了解有关版本控制,如何编写简洁代码,如何使用GitHub等的所有知识。所有这些都与您的数据科学技能结合在一起。
学习Flask和Django可能是一个很好的起点。这是一个很棒的入门项目。
6.数据科学家不是魔咒–了解其他基于数据的领域
数据科学被称为21世纪最性感的工作,从那时起我们一直在努力追逐它。但是,这里有一个警告-成为数据科学家并不是您数据科学历程中必不可少的一切。我们必须发现其他基于数据的角色,这一点至关重要。
数据科学项目涵盖了与数据相关的所有角色,例如数据工程师,机器学习工程师,深度学习工程师,业务分析师,数据分析师等。数据科学家不会为大数据系统构建体系结构,数据工程师却不会。数据科学家通常不回答与业务有关的问题,而业务分析师则回答。
请注意,根据您的项目和组织的不同,这些角色经常互换和交织。
因此,在开始基于数据的项目之前,您可以选择要成为的项目。如果您想更多地了解不同角色之间的区别,那么绝对应该查看这篇文章。
7.相信我,您需要一个基准模型
在我作为数据科学家的第一个回归项目期间,我利用所学到的所有知识建立了一个数据模型。但是我感觉到误差很大,R平方非常低。感到沮丧后,我把这个问题带给了我的经理。他说–“您怎么知道错误率很高?您的基准分数是多少?”
基准模型是磨机机器学习模型的基本运行方式,可为您提供不错的分数。您甚至不需要了解机器学习即可构建基准模型。回归的基准模型可以通过简单的均值来建立,分类模型可以通过使用该模式来简单地建立(尽管我鼓励您在行业中不要这样做!)。
让我举一个我以前的数据科学项目中的例子。我们正在研究营销分析问题,而数据科学团队正忙于尝试破译该尝试哪种模型时,我的项目经理解雇了KNIME,建立了一个简单的回归模型,并得出了基准分数。他花了45分钟才能做到这一点。
确实可以这么简单,但这是一种建立基准并从那里开始工作的有效方法。
8.始终与根保持联系(线性回归可能比高级神经网络更好)
你见过有人用斧头切黄油吗?隐喻地说,这是许多初学者在开始机器学习之旅时所做的。您可能会感到惊讶,但是一个简单的线性回归问题可以帮助您获得更准确,需要较少计算能力的模型。
了解问题陈述,正在处理的数据类型并问自己,这很重要—我要在项目中完成什么?您是要模型提供更高的准确性,还是要一个简单的模型来帮助您进行变量归因?
请记住,大多数拥有数据科学部门的组织可能不会拥有支持复杂模型的计算能力。诸如Google和Facebook之类的公司通过投入大量资金来构建复杂的多层深度神经网络,歪曲了我们对数据科学的认识-切勿陷入陷阱。
9.没有适当的基础架构,任何数据科学项目都无法成功
像大多数行业项目一样,数据科学项目也取决于许多外部因素。在组织中,您必须确保这些因素能够满足您对成功项目的需求。
例如,一家传统的物流公司计划为运输商构建路线优化应用程序,但他们甚至没有任何架构来跟踪其车队。这是约85%的数据科学项目最终失败的主要原因之一。这是一个巨大的数字,这是因为在挥霍资金建立团队之前,决策者并没有真正理解核心基础设施的重要性。
在开始之前,高管和领导者可以通过确保团队需要时一切都准备就绪来节省大量时间和精力。
10.在启动新的数据科学项目之前,请利益相关者批准
一个项目必须有一个明确定义的问题陈述。它应该列出预期结果,并且所有利益相关者都应该相同。由于缺乏适当的沟通,利益相关者和数据科学团队可能会得到不同的期望,这可能会使您的项目陷入困境。
让我以以前的项目为例。我们的数据科学团队被告知“使用数据科学将收入增加25%,而将成本增加不超过10%”。那是一个难以置信的模糊问题陈述!我们必须与项目经理和领导团队坐在一起,以了解项目的范围,可以使用的内容以及不能使用的内容等。
如果我们盲目地走进来并开始解决这个问题,那将不可避免地遇到盲目的小巷。
始终最好保持利益相关者的最新状态,并进行适当的沟通。否则,该项目可能会采取不同的方向,并最终导致重新开始。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 FACEBOOK python Google GitHub

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 14:54