数据科学是一个竞争日益激烈的领域,参与者不断努力建立更高水平的技能和经验。这种趋势导致对该职位的职位描述要求越来越高。为了保持竞争力,为新的工作方式和各种新工具做好准备是有意义的。为了对抗许多公司试图雇佣一个人来担任数据科学家、数据工程师、软件开发人员等职位的“独角兽”心态,本文着眼于一些重要的数据科学特定技能旨在帮助您在职业生涯中大放异彩:以下是 顶级数据科学技能。
GitHub
Git(一种版本控制系统,可让您管理和跟踪源代码历史记录)和 GitHub(一种基于云的托管服务,可让您管理 Git 存储库)是开发人员在管理不同版本软件时非常有用的工具. 它们跟踪对代码库所做的所有更改,此外,当多个开发人员同时对同一个项目进行更改时,它们增加了协作的便利性。
对于数据科学家的角色,Git 正在成为一项严肃的工作要求,并且需要时间来适应使用 Git 的最佳实践。当你独自工作时很容易开始使用 Git,但是当你加入团队或与 Git 专家合作时,你可能会比你想象的更困难。
准备生产
从历史上看,数据科学家是通过机器学习回答业务问题的工作人员。但是现在数据科学项目越来越多地用于生产系统。同时,高级模型现在需要越来越多的计算和存储资源,尤其是在使用深度学习时。
就数据科学家职位的工作描述而言,考虑模型的准确性很重要,但直接与团队的数据工程成员合作以将数据科学解决方案置于生产环境中也变得同样重要。如果您还没有与数据工程师合作将您的模型投入生产,那么现在是开始的好时机。
云
让我们面对现实吧,云是 2020 年及以后数据科学和机器学习的王者。将计算和存储资源转移到 AWS、Microsoft Azure 或 Google Cloud 等云供应商可以轻松快速地设置可远程访问的机器学习环境。这需要数据科学家对云基础设施有基本的了解。
云的知识不是强制性的,但它是这样的。如果您有这种经验,它绝对是一项宝贵的技能。值得一看的服务有: Google Colaboratory、 Google ML Kit、 Kaggle、 IBM Watson和 NVIDIA Cloud。
深度学习
深度学习是一类最适合图像识别和 NLP 等特定问题领域的机器学习,在 2019 年受到了很多媒体的关注。但对于使用结构化/表格数据的更多常规数据科学应用,像 XGBoost这样的常规机器学习算法是受到推崇的。因此,大多数数据科学家已经接受将图像识别和 NLP 视为仅仅是数据科学的专业,并不是每个人都需要掌握的。
然而,进入 2020 年,即使在典型的企业应用程序中,图像分类和 NLP 的用例也变得越来越频繁。因此,我可以建议所有数据科学家至少掌握深度学习的基本知识。即使您在当前工作中没有直接应用深度学习,使用适当的数据集进行试验也可以让您了解未来需要时所需的步骤。
数学和统计
各种机器学习技术的知识对于成为一名数据科学家来说是不可或缺的。机器学习经验是与数据分析师的主要区别。对机器学习的数学基础的基本理解对于避免在调整算法时仅仅猜测超参数值至关重要。微积分(例如偏微分方程)、线性代数、统计学(包括贝叶斯理论)和概率论的知识对于理解机器学习算法的工作原理很重要。
我总是告诉我的学生,他们应该努力理解在 Hastie、Tibshirani 和 Friedman 的“机器学习圣经” 、统计学习要素中找到的机器学习的理论基础。
SQL
我在数据科学课程的介绍中经常听到的一个问题是“数据科学家应该了解 SQL 吗?” 最强调的是——是的!很多时候,数据科学项目的数据集来自企业关系数据库,因此 SQL 是您获取数据的渠道。您应该精通 SQL 以获得最大的数据采集收益。此外,使用像 sqldf 这样的 R 包是使用 SQL 在数据框中查询数据的好方法。
自动机器学习
我对忽略数据科学的这一方面感到内疚,但这项技术正在发展壮大。AutoML工具背后的想法 是扩展资源的能力,即供不应求的数据科学家。通过自动化数据科学家执行的许多常规任务、训练和评估机器学习模型,可以用更小的团队完成更多的工作。不错的概念,但我仍然不是 100% 相信,这可能就是我没有深入研究 AutoML 的原因。尽管如此,许多公司都在认真对待这项技术,因此为了扩大您对所有可用工具的体验,仔细研究一下是明智的。
实验
我总是告诉我的新手数据科学学生寻找新的数据集并进行实验、实验、实验!数据科学家永远无法获得足够的练习来处理以前未知的数据源。幸运的是,世界充满了数据。只需将您的热情(环境、经济、体育、犯罪统计等)与可用数据相匹配,这样您就可以执行“数据科学流程”的步骤来更好地磨练您的技能。您从自己的宠物数据实验中获得的经验只会帮助您更加专业。
数据可视化
数据可视化是你可以用数据做的一件了不起的事情。数据可视化是展示机器学习算法结果的最佳方式。它是数据讲故事的主要成分(请参阅下面的最终顶级技能)。在向项目利益相关者进行演示期间,只需几个非技术性的描述词,如果您有一个精心设计的可视化,关键结果就会被理解。
在阅读文章、博客和书籍时,我一直在寻找新的数据可视化技术(使用新发现的包来简化流程)。这项技能是数据科学项目成功的关键。
数据讲故事
提高您的数据讲故事能力始终很重要。这对于数据科学家来说可能是最困难的,因为它是一项需要大量创造力的“软”技能。
这项技能是关于网络和人际交往能力的。这是一条让自己在数据科学同行中脱颖而出的道路(因为很少有人能做得很好)。与利益相关者互动,当组织需要时,他们会帮助你。此外,与高级管理层的良好沟通将使您随时了解即将开展的项目。因此,在不向他们展示代码的情况下,您必须解释高度技术性的结果。远离水晶球的解释,这样人们就不会认为数据科学是“魔法”。提前做好准备是表现出色的最佳方式。
编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了
DA内容精选