楼主: 时光永痕
723 0

[数据挖掘新闻] 社区在数据科学中的重要性 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

44%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-24

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
社区在数据科学中的重要性
没有人是一个孤岛。数据科学家更是如此。组合式预测分析工作流程得益于帮助和审查:数据科学同事的流程和算法;由IT专业人员部署,管理和监视基于IT的解决方案;在仪表板和报告功能上,由数据可视化专家传达最终结果;以及用于系统管理员执行工作流的自动化功能。看来,数据科学家可以从专家社区中受益!
需要一个专家社区来支持数据科学家的工作,这引发了许多论坛和博客,可以在线寻求帮助。这并不奇怪,因为数据科学技术和工具在不断发展,并且主要是只有在线资源才能跟上步伐。当然,您仍然可以借鉴传统出版物,例如书籍和期刊。但是,它们有助于解释和理解基本概念,而不是提出可以即时回答的简单问题。
主题是什么都无所谓,您总是会找到一个论坛来发布您的问题并等待答案。如果您在训练模型时遇到麻烦,请前往DSC论坛或Data Science Reddit。如果要使用Python或R编写特定函数,则可以参考Stack Overflow寻求帮助。在大多数情况下,实际上没有必要发布任何问题,因为其他人可能有相同或相似的查询,答案就在那里等着您。
但是,有时候,对于复杂的主题,论坛上的主题可能不足以获取您所寻求的答案。在这种情况下,某些博客可以提供有关该全新数据科学实践的完整详细说明。在Medium上,您可以发现许多知名作者自由共享他们的知识和经验,而不受平台所有者的限制。如果您更喜欢内容适中的博客,请查看在线杂志,例如Data Science Central。
还有许多数据科学平台可以轻松地与他人共享您的工作。最受欢迎的例子肯定是GitHub,许多数据科学家和开发人员共享并不断更新许多代码和开源工具。
尽管有所有这些示例,但鼓舞人心的数据科学界不需要在线,因为您通常也可以离线与其他专家联系。例如,您可以通过Meetup参加您城市中的免费活动,或者参加每年在不同大洲举行几次的ODSC或Strata之类的会议。
我相信还有更多数据科学社区的例子值得一提,但是现在我们已经看到了其中的一些例子,您能告诉我们数据科学家在所有这些不同平台上实际寻找什么吗?
为了回答这个问题,我们将探索数据科学家完成日常工作所依赖的四个基本需求。
1.值得学习的例子
数据科学家正在不断更新其技能:算法解释,技术建议,最佳实践提示,以及最重要的是有关后续流程的建议。我们在学校和课程中学到的通常是标准的数据分析过程。但是,在现实生活中,会出现许多意外情况,我们需要弄清楚如何最好地解决它们。这是社区的帮助和建议变得宝贵的地方。
初级数据科学家可以进一步利用社区来学习。他们希望在社区中找到练习,示例数据集以及预包装的解决方案以进行练习和学习。在许多社区中心,初级数据科学家可以通过现场,在线甚至是两者的组合课程来学习有关算法和最佳实践的更多信息-从UC Irvine的数据集存储库开始,继续进行数据集和知识奖励竞赛以及诸如Coursera或Udemy等在线教育平台。在那里,初级数据科学家可以找到各种数据集,问题和即用型解决方案。
但是,对社区的盲目信任经常被表示为现代网络连接世界的问题。此类示例和培训练习必须具有一定程度的可信度,无论是来自受主持社区的(这里的主持人负责材料的质量),还是来自社区成员自行提供的某种审核系统。在后者中,社区成员以示例的方式评估和评估所提供培训材料的质量。因此,初级数据科学家可以依靠其他数据科学家的先前经验,并从评分最高的工作流程开始学习新技能。如果未主持论坛或数据集存储库,则必须使用适当的审阅系统来确定方向。
2.快速启动下一个项目的蓝图
但是,示例工作流程和脚本不限于初级数据科学家。经验丰富的数据科学家也需要它们!更准确地说,经验丰富的数据科学家需要蓝图工作流或脚本以快速适应他们的新项目。在时间和资源上,为每个新项目从头开始构建所有内容都非常昂贵。依靠紧密且适应性强的原型的资源库可以加快概念验证(PoC)阶段以及早期原型的实施速度。
与初级数据科学家一样,经验丰富的数据科学家也利用数据科学社区来下载,讨论和审查蓝图应用程序。同样,社区的评级和审查可以衡量每个蓝图的质量。
3.回馈社区
实际上,用户只对搭便车感兴趣是不对的,在这种情况下,这意味着免费的解决方案。用户真诚地希望通过自己的作品向社区做出贡献。通常,用户非常愿意与社区中的其他用户共享和讨论他们的脚本和工作流程。上传解决方案和随后进行的讨论还具有揭示错误或改善数据流的其他好处,从而使其更加高效。一个人的头脑,尽管可能如此灿烂,只能在一定程度上实现。许多人共同努力可以走得更远!
这个概念反映了近年来许多数据科学项目的开源方法:Jupyter Notebook,Apache Spark,Apache Hadoop,  TensorFlow,Scikit-learn等。这些项目中的大多数项目开发得更快,更成功,只是因为它们通过提供免费和开放的代码访问权来利用社区成员的帮助。
现代数据科学家当然需要一种简便的方法来上载和共享其示例工作流和项目,此外,还需要一种选项来轻松下载,评估和讨论已经在线发布的现有模型。当您为用户提供一种轻松共享他们的工作的方式时,您会为社区用户提供的大量捐助感到惊讶。如果我们在谈论代码,那么GitHub是一个很好的例子。
4.讨论空间
正如我们所指出的,普通数据科学家将自己的示例上传到公共存储库的主要优势-当然,作为社区的慷慨和积极成员而感到自豪和自我实现-主要存在于由其他数据科学家建议的更正和改进。
组装原型解决方案以解决问题可能需要相对较短的时间。将该解决方案改进为更快,可扩展并获得少量额外的准确性可能需要更长的时间。通常需要进行更多的研究,最佳实践的研究,以及与他人的工作进行比较,而这需要时间,并且可能会丢失该领域的一些重要作品。
因此,数据科学家需要一种简便的方法来与社区中的其他专家进行讨论,以大大缩短解决方案改进和优化的时间。交流意见和讨论解决方案的社区环境将达到目的。
社区数据科学平台
这些是数据科学家在构建和改进其数据科学项目时所依赖的四个重要的社会特征。
数据科学家肯定可以使用与社交平台接口的项目存储库来学习数据科学的基础知识,快速启动其当前项目的工作,讨论最佳实践和改进,最后但并非最不重要的一点是,通过他们的社区回馈社区知识和经验。
项目实施通常与特定工具联系在一起。如果每个数据科学工具都可以提供这样的社区平台,那不是很好吗?

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 重要性 Data Science scikit-learn Apache Spark

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 08:14