您如何在数据科学和机器学习中建立职业?
机器学习导论
机器学习是人工智能的关键。随着AI,IoT和其他智能技术的不断发展,机器学习工作在技术市场上的曝光度和需求都越来越高。如果您目前是IT专业人员,则可能会因为行业为有志向往的人提供令人兴奋的机会而对职业转变感兴趣。或者,您可能有想要长期追求的兴趣。
但是,不完全了解如何开始机器学习事业可能会以错误的方式领导有抱负的人。关于如何识别正确的机会并以系统的方式处理它的机会,应该有一个适当的议程。在本文中,让我们看到人们可以在他们的机器学习旅程中采取的一些基本步骤。
数据科学事业
人工智能,机器学习和深度学习
人工智能是制造智能机器,尤其是智能计算机程序的科学和工程。人工智能与使用计算机来理解人类智能的类似任务有关,但是人工智能不必将自身局限于生物学可观察的方法。” 机器学习是人工智能的一个子领域,它使机器可以从过去的数据或经验中学习,而无需进行明确的编程。
机器学习使计算机系统可以使用历史数据进行预测或做出一些决策,而无需进行明确的编程。机器学习使用大量的结构化和半结构化数据,因此机器学习模型可以生成准确的结果或基于该数据给出预测。
深度学习是机器学习的一个子集,其中创建了算法,并且其功能与机器学习中的算法相似,但是这些算法有很多层,每层都对所获取的数据提供不同的解释。这样的算法网络称为人工神经网络(ANN),其命名是为了激发人们的灵感,或者您可能会说;尝试模仿大脑中存在的人类神经网络的功能。
数据科学事业-AI,ML,DL
图片来自https://xaltius.tech/
数据科学过程
现在该习惯数据科学项目中的一般过程了。它总是从根据您所从事的行业找到有效的业务用例开始。接下来,我们需要找到支持业务问题的数据。这通常需要数据工程师在Informatica或Talend之类的工具中开发ETL脚本,以连接到数据源并检索数据。通常,如果根据公司策略存在安全约束,则数据源采购可能是一项具有挑战性的任务。
数据可以是存储在平面文件中的文本格式,也可以是RDBMS数据库。或者,它可以是视频或音频文件的形式。在此阶段,数据分析师将探索列和行中的数据,以查找明显的问题,例如重复和丢失数据。根据需要完成的预处理量,数据处理或清理可能占用项目时间的70%。
接下来,机器学习工程师/数据科学家对数据应用回归,分类,分段等算法,并测量准确性指标。期望可以生成不同的模型,以提供不同的性能指标。选择最终模型并将其部署在生产环境中。
数据科学职业-数据科学过程
图片来自Quanthub.com
了解先决条件
要进入数据科学/机器学习领域,您必须具有以下一个或多个主题的强大技术背景。请记住,这是一个技术含量很高的领域,在开始旅程之前,必须准备好具备必要的教育资格。
数学:在数据科学中许多标准模型和结构的背后,有使事物起作用的数学。重要的是要了解它在数据科学中的成功。它包括关键领域,例如离散数学,微积分,线性代数和概率。学习数据科学或机器学习的理论背景可能是艰巨的经历,因为它涉及数学的多个领域和一长串的在线资源。
但是,假设您是机器学习的初学者,并且希望在该行业找到一份工作。在这种情况下,不建议在开始实际操作之前先研究所有数学,这种自下而上的方法适得其反。您需要的数学数量取决于角色。通常,每个数据科学家都需要了解一些统计和概率论。
了解先决条件
计算机科学:计算机科学是对计算机和计算系统的研究。与电气和计算机工程师不同,计算机科学家主要处理软件和软件系统。这包括他们的理论,设计,开发和应用。?动态数值科学涉及的信息和计算的理论基础,以科学实用的方法来计算及其应用。
计算被定义为在信息处理实践中遵循定义明确的模型(例如算法和协议)的任何类型的计算或计算技术使用(反过来,定义为使用这些模型来转换计算机中的数据) 。计算机科学被许多从业者认为是一门基础科学,它使其他知识和成就成为可能。
计算机科学的研究涉及系统地研究方法过程(例如算法),以帮助信息的获取,表示,处理,存储,通信和访问。这是通过分析这些过程的可行性,结构,表达和机械化以及它们与这些信息的关系来完成的。在计算机科学中,术语“信息”通常是指以计算机存储器中的位和字节编码的信息。
电脑内存
统计:概率统计是数据科学的基础。估计和预测是数据科学的重要组成部分。借助统计方法,我们可以估算出结果以供进一步分析。因此,统计方法在很大程度上取决于概率论。并且所有概率和统计数据都取决于数据。
在执行数据科学(DS)技术时,统计信息可能是一个强大的工具。从高级的角度来看,统计是使用数学来执行数据的技术分析。基本的可视化效果(例如条形图)可能会为您提供一些高级信息,但是有了统计信息,我们就可以以更多信息驱动和更有针对性的方式对数据进行操作。所涉及的数学有助于我们对数据形成具体的结论,而不仅仅是猜测。它通常是探索数据集时首先要应用的统计技术,其中包括偏差,方差,均值,中位数,百分位数等。
图形
用R / Python编程
R是用于统计分析,图形表示和报告的编程语言和软件环境。R是根据GNU通用公共许可证免费提供的,并且为各种操作系统(例如Linux,Windows和Mac)提供了预编译的二进制版本。该编程语言基于两个R作者(Robert Gentleman和Ross Ihaka)的名字的第一个字母,被命名为R。
R及其库实现了多种统计和图形技术,包括线性和非线性建模,经典统计测试,时间序列分析,分类,聚类等。R通过功能和扩展很容易扩展,并且R社区以其在软件包方面的积极贡献而著称。 Python是一种功能强大的通用编程语言。
它用于Web开发,数据科学,创建软件原型等。对于初学者来说幸运的是,Python具有简单易用的语法。这使Python成为学习初学者编程的优秀语言。 它是数据科学家用于各种数据科学项目/应用程序的最佳语言之一。Python提供了强大的功能来处理数学,统计和科学功能。
它提供了出色的库来处理数据科学应用程序。牛逼的Python他比较和R一直处于行业界的一个热门话题多年。R已经存在了二十多年,专门用于统计计算和图形,而Python是一种通用编程语言,与数据科学和统计一起具有许多用途。
[R
蟒蛇
业务/领域知识:业务知识是企业所有者广泛的了解客户需求和偏好,业务环境及其动态,员工技能,经验和潜力以及业务总体可预见方向的库。每个数据科学家都必须非常重视学习与他们要解决的问题相关的业务知识。
实际上,组织中的每个新聘用的数据科学家都应避免在头几周内建立任何模型-花费时间来开发深入的业务知识并掌握“元数据”-有关数据的数据。在公司成立之初就将业务知识放在优先位置,这将帮助您的技术技能找到一条平稳的跑道,以便将来着陆或起飞,
业务和领域知识
角色和职位描述
几乎每个工作领域都需要数据科学专家,而不仅仅是技术领域。实际上,五家最大的科技公司-Google,亚马逊,苹果,微软和Facebook-仅雇用了美国员工总数的百分之一的一半。但是,为了打入这些高薪,按需的角色,通常需要高级教育。我们列出了数据科学中的一些相关职业选择,您可以通过高等教育来涉足这些职业选择。
数据科学家:数据科学家将负责通过使用统计,机器学习,算法,数据挖掘和可视化技术来对复杂问题建模,发现见解并确定机会。该人员将需要与内部利益相关者和跨职能团队进行有效合作,以解决问题,提高运营效率并成功地按照高组织标准交付服务。作为数据科学家,可能会要求您评估营销策略的变化如何影响您公司的利润。
这将需要进行大量的数据分析工作(获取,清理和可视化数据),但可能还需要构建和训练机器学习模型,该模型可以根据过去的数据做出可靠的未来预测。
机器学习工程师:研究适用于自适应系统(包括监督,无监督和深度学习技术)的新数据方法和算法。机器学习工程师经常被冠以研究科学家或研究工程师之类的头衔。机器学习工程师和数据科学家之间存在一些共性。在某些公司中,此标题仅表示专门研究机器学习算法的数据科学家。
在其他公司,“机器学习工程师”更多地是软件工程角色,涉及进行数据科学家的分析并将其转变为可部署的软件。尽管具体细节有所不同,但实际上,所有机器学习工程师职位都将至少需要数据科学编程技能和相当高级的机器学习算法知识。
数据分析师:数据分析师筛选数据,并提供报告和可视化效果,以解释数据隐藏了哪些见解。当有人帮助公司中的人们通过图表了解特定查询时,他们将担当数据分析师的角色。在某些方面,您可以将他们视为初级数据科学家,或者是从事数据科学工作的第一步。转换和处理大数据集以适合公司所需的分析。对于许多公司而言,该角色还可以包括跟踪Web分析和分析A / B测试。
数据分析师还通过为组织负责人准备报告来帮助决策过程,这些报告可以有效地传达从他们的分析中收集到的趋势和见解。
统计学家:“统计学家”是在术语“数据科学家”出现之前被称为数据科学家的人。在较高的层次上,统计学家是将统计方法和模型应用于实际问题的专业人员。他们收集,分析和解释数据以帮助许多业务决策过程。统计员是各个行业的宝贵员工,经常在诸如商业,健康和医学,政府,物理科学和
环境科学等领域寻找职位。许多入门级的统计学家角色都要求候选人拥有硕士学位,通常是统计学或数学专业。
但是,那些精通统计分析以及其他学科领域(例如经济学和计量经济学,计算机和材料科学或生物学)的人在寻求专业行业的就业时可以拥有明显的竞争优势。
数据架构师:数据架构师确保为多个平台的性能和设计分析应用程序构建数据解决方案。除了创建新的数据库系统外,数据架构师还经常找到提高现有系统性能和功能的方法,并努力为数据库管理员和分析人员提供访问权限。数据架构师将与项目团队中的用户,系统设计师和开发人员紧密合作。
它是Data Analyst和Database Designer的自然演变,反映了Internet网站的出现,这些网站需要集成来自不同无关数据源的数据。这些来源可以是外部的,例如市场摘要(例如Bloomberg)和新闻社(例如路透社)。或内部(例如现有系统)(例如“员工详细信息”的HR)。
商业智能开发人员:商业智能(BI)是用于将商业信息转换为可行的报告和可视化效果的一组技术和实践。商业智能开发人员是负责开发,部署和维护BI接口的工程师。这些
工具包括查询工具,数据可视化和交互式仪表板,即席报告和数据建模工具。BI开发人员设计和开发策略以帮助业务用户快速找到他们做出更好的业务决策所需的信息。他们非常了解数据,他们使用BI工具或开发自定义BI分析应用程序,以帮助最终用户理解其系统。
准雇主通常会寻找具有出色沟通能力和疑难解答能力的BI开发人员。这个职位要求个人能够进行测试,创建数据存储工具,在系统集成过程中与团队合作并负责数据
分析平台的维护和支持。
企业架构师:企业架构师负责使组织的策略与执行其目标所需的技术保持一致。为此,他们必须对业务及其技术需求有完整的了解,以便设计满足这些需求所需的系统体系结构。企业架构师是建立组织的IT基础架构以及维护和更新IT硬件,软件和服务以确保其支持既定企业目标的关键。
大数据工程师/数据工程师:大数据工程师是创建和管理公司大数据基础架构和工具的人员,并且是知道如何快速从大量数据中获取结果的人。该角色的实际定义各不相同,通常与数据科学家角色混在一起。在这里,我们将假定它是专注于工程的角色,而无需统计和强大的机器学习技能。他们将致力于收集,存储,处理和分析大量数据。
您还将负责将它们与整个公司使用的体系结构集成。大数据工程师的任务是建立海量大数据存储库和高度可扩展且容错的分布式系统,这些系统可以固有地存储和处理海量数据或快速变化的数据流。他们还负责开发,构建,测试和维护框架,例如大型数据处理系统和数据库。
题库