楼主: 时光永痕
371 0

[数据挖掘新闻] 行业新秀一年后的数据科学见解 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

49%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
行业新秀一年后的数据科学见解
在我担任数据科学家的第一个全职职位中,无数小时的在线课程并没有为我做好应对挑战的准备。是的,我学到了足够多的Python,足以胜任这份工作,但是开发数据科学项目的现实超出了我的预期。现在是时候让我指出一些误解和尚待解决的问题了。
不要认为数据是理所当然的
当您成为专业人士时,Kaggle时代就已经过去了,那时社区付出了巨大的努力,几乎揭示了每个数据集的秘密和模式。您会发现数据分散,歪斜和混乱,只是丢失,丰富但嘈杂-仅列出了一些合理的情况。您的新手精力不会让您灰心,但是弥补差距可能会浪费太多的时间和资源。尽管通常会说公司拥有大量数据,但这并不意味着数据科学研究可访问该数据。您很容易发现自己受到许可证,公司协议,机密性问题和技术问题(例如解析或流式传输)的约束。如果发生这种情况,请与专家进行对话。他们对您被任命调查的领域的透彻了解,将指导您度过困惑,并促进数据科学研究。与专家小组保持联系还有另一个重要原因。曾经有很多人说过-数据科学项目由于与客户的沟通不畅而失败。要么您弄错了他们的期望,要么他们认为您的解决方案与实际不同。绝对是这样。   
我在这里的主要收获是,通过解决问题的人员的专业知识来弥合数据鸿沟,并促进与数据工程团队的合作。毕竟,它们可以为您的模型火箭提供数据燃料。
不要小看数学的力量
过去,从scikit导入或从scikit学习并拟合我的模型真是太有趣了。我很快在工作中经历的是计算成本,尤其是当您处理大数据时,这意味着加载数据集后马上就没有RAM了。该成本的货币要么是花在云上的实际资金,要么是利用内部基础架构的执行时间。与我的情况一样,您的环境也可能需要您从Python切换到PySpark。无论行业如何,业务目标始终是相同的。如果您必须在生产中交付解决方案,则必须快速且廉价。否则,您将在无限RND循环中循环。这就是为什么我转向统计和概率,研究如何将纯数学融入算法的原因。在与专家紧密合作的过程中,我得到了团队分配的重要行业背景。将复杂的问题分解为非常狭窄的案例,并通过定义明确的阈值将其划分为标准偏差。尽管听起来数据根本不科学,但相对简单的数学运算仍可以提供精益解决方案,这些解决方案可以在大量数据上快速工作。
GIT很重要
与进入初级市场的众多初级数据科学家一样,我并没有什么不同,我坚信Jupyter Notebook是我们工作的基本工具。我简直不能再错了。顾名思义,“笔记本”代表保持完整的笔记。Jupyter不会促进团队合作,不会启用代码版本控制,也不会带您进行生产。我对Jupyter Notebook的结论是,尽管它对于快速探索和验证您的想法非常有用,但它却削弱了数据科学团队的整体绩效。现在,至关重要的是保持代码存储库的蓬勃发展。日常提交,在分支机构上工作,都将提高项目的透明度,促进测试和生产,接替其他数据科学家的任务。在开始担任数据科学家之前,我曾在3个月的前端Web应用程序实习。一年后,真正令人震惊的是,与开发数据科学项目相比,典型的应用程序开发有多少共同之处。
在上面阐明了我的想法之后,让我结束一个在我的数据科学发现阶段实际上是无法想象的生产力黑客。断开与Jupyter Notebook的连接,并向您选择的Python IDE问好。Visual Studio Code和PyCharm都支持笔记本,因此您不会失去Jupyter的使用经验。但是,您获得的是立即将代码转换为正确的.py文件的能力。这是您最终决定的任务,并安排在开发环境中进行测试的时间表。跟踪算法的变化和发展是质量保证和性能指标的重要组成部分。这是使事情井井有条的方式。最终,运行数据科学项目与应用程序开发非常相似。至少这是我在菜鸟那年作为数据科学家观察到的。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 Notebook python Visual kaggle

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 22:15