楼主: 时光永痕
443 0

[数据挖掘新闻] 不是工具,而是关注问题:数据科学的项目周期 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

62%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
不是工具,而是关注问题:数据科学的项目周期
作为 组织中的数据科学家,您经常会遇到以下几种情况:
你有一个数据集,你想提取一些有用的信息
您遇到业务问题,想找到一个数据驱动的解决方案
第一种情况实际上是一种常见的情况,基本上,这意味着要做所有您在数据科学之旅中作为探索性数据分析(EDA)一部分学到的事情。相反,在本文中,我将解释如何应对第二种情况。
假设您在组织中已经足够长的时间来了解其业务实践及其生成的各种数据。在此过程中,您已经建立了要检验的假设。或者,也许您的经理/首席执行官/首席技术官正在要求您帮助找到他们遇到问题的答案。如果您有足够的经验,您可能会知道下一步的工作,但是新手经常很难在正确的方向上开始思考。因此,这是一种通过算法来思考问题直至解决方案的算法。
数据科学项目周期(@DataEnthus)
问题
在第1步中,您有一个问题。如果很大,可以根据需要将其分解为较小的部分。例如,如果问题是关于未来10年的销售增长预测,则可以将其细分为历史销售量?目前的销售趋势如何?市场需求趋势如何?竞争对手情况如何?等等。
您会从不同的来源收集尽可能多的信息,以从不同的角度理解问题。您首先要放大大图,然后放大到与该问题有关的特定信息。在这个阶段,您确实已经从许多不同的角度了解了手头的问题。这部分类似于学术研究项目中的文献综述。您应该将大部分时间用于解决问题。
过程
在第2步中,不,您没有在考虑使用哪种模型/工具/可视化技术;还没。您正在考虑一个方法论过程,该过程将指导您回答问题。您列出了数据集的列表,找到了可以找到它们的位置,并可能列出了可能有用的工具。即使您尚未就数据/工具的具体细节做出最终决定,即使您以后会因其他信息而改变总体思路或以书面形式撰写,整个过程还是有很大帮助的。这种方法在学术环境中有点类似,在学术环境中,您实际上是在进行研究之前就编写了研究计划。当您进一步研究当前问题并深入研究时,事情通常会随之改变。
工具
在第3步中,现在您正在考虑哪些工具可以帮助回答这个问题。如果这是一个预测问题,您会认为基于时间序列的模型是否有用?还是线性回归问题?您需要GIS技术吗?在R或Python中是否有好的软件包?
探索了所有可用选项并确定了一套特定的工具后,现在就可以开始数据搜索。您需要的数据可以是数百万行的数据集,也可以是一百个数据点-取决于您的问题和选择的模型。
您是否找到了所选模型所需的数据?如果是,则很适合您的模型。但是,如果您没有所有必需的输入,则应在此处停止操作,然后回到步骤2中的方法流程。也许还有其他不需要时间序列数据的工具/方法?不需要太多参数或大型数据集的系统动态模型如何?  
答案
您已将大问题分成了小块,并分别回答。总的来说,您是否解决了开始时遇到的大问题?如果是,则表示赞誉。如果不是,请返回步骤2。
沟通是解决问题过程中的重要组成部分。您是否需要说服您的受众(产品经理/同事/外部受众),为什么您的解决方案有意义?您还需要对与拟议解决方案以及在此过程中所做的假设相关的不确定性和警告保持透明。
底线
总之,成为一名科学家意味着要经历一个探索/发现的过程。我们经常迷上了我们所知道的工具/模型以及如何将其与数据相适应。如我们所见,选择正确的工具只是解决问题过程的一小部分。首先总是问题,然后是工具。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 探索性数据分析 时间序列数据 python 基于时间序列

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-3 11:47