楼主: 时光永痕
617 0

[数据挖掘新闻] 开始数据科学职业之前,您绝对应该知道的8件事 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

55%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
开始数据科学职业之前,您绝对应该知道的8件事
数据科学在业界已经流行了很长时间,我必须说这是最激动人心和最有意义的工作角色。数据科学家不仅享有很高的薪水规模,而且还获得了带来直接业务影响的机会。对于数据科学家而言,每一天似乎都是一次冒险。
如今,数据科学的当前市场规模为380亿美元。预计2025年的市场规模将达到1400亿美元。这意味着我们可以预期,对数据科学家的需求激增将持续数年!
根据Glassdoor的说法,数据科学家的平均薪级为Rs。印度每年90万卢比,而计算机程序员的平均工资为卢比。每年40万。您可能会猜到我要怎么做!
职业数据科学
从零售和电子商务中的消费者行为分析到计算机视觉应用(例如对象和人类的检测和分类),数据科学在各个行业中都有应用。简而言之,数据科学现在无处不在,并且这个领域将成为未来十年中最令人兴奋的领域。我们仍处于数据和人工智能的新生阶段。
在本文中,我列出了在从事数据科学事业之前应了解的8项重要知识。这8个要点以及整个机器学习生命周期以及其他所有内容,都已在AI认证和ML BlackBelt +计划中得到了全面涵盖。这是一项旗舰计划,可让您为行业中的数据科学事业做好准备。
那么,关于数据科学的这八件事是什么?
什么是数据科学?
数据科学角色是什么样的?
数据科学家解决的问题
您必须知道的数据科学角色
如何开始?
您必须掌握的工具
软技能
如何获得招聘人员的认可?
奖金小费
什么是数据科学?
数据科学似乎确实令人兴奋,但首先,让我们弄清基础知识!数据科学到底是什么?我不会为您带来冗长的定义,所以这里有一个简短的解释:
数据科学是统计学,计算机科学和特定领域知识的融合。
统计和计算机科学是可以通过学习和一点点实践来完善的通用基础知识。这是领域知识,需要时间,研究和努力来获取。
您无需精通每个垂直领域,但从长远来看,对所有垂直领域都有一定的了解会有所帮助。
数据科学本身就是一个很大的领域。它从简单的数据报告活动开始,到使用人工智能进行高级预测建模。从下面的数据科学领域可以看出,复杂性越高,其业务价值也就越高。
数据科学令人振奋!现在,让我们看一下数据科学家的实际角色。
数据科学家的角色是什么样的?
警告:这些术语在行业中经常使用。确切的角色可能取决于组织在数据计划中的成熟度。
数据科学家的作用相当广泛,并且在很大程度上取决于您正在从事的项目的类型。在这里,我们将讨论数据科学项目的一般生命周期。
了解问题陈述–看起来很简单,对吧?相信我,事实并非如此。理解问题陈述将是整个项目过程中成败的情况。在此阶段,数据科学家团队和有关团队将研究项目的目标和预期要求。此步骤需要良好的沟通技巧和涉众管理。一位出色的数据科学家会毫不犹豫地在此步骤上花费大量时间。一旦问题陈述明确,数据科学家就可以继续收集数据
收集数据– 一旦获得要求并形成假设,数据科学家便会继续挖掘所需的数据。数据源可能会有所不同,例如公司数据仓库,Web抓取等
数据清理–这是整个数据科学项目中最耗时的过程。这可能会占用您80%的时间。在这里,数据科学家将研究,操纵,整理数据。时间和精力是值得的,因为数据的健康状况将反映输出模型的健康状况。在此阶段,数据科学家将处理异常值,丢失数据值,更正数据类型以及许多其他操作。这不是最令人兴奋的步骤,而是最重要的步骤
探索性数据分析(EDA)–基本上,这是数据科学家获得数据“感觉”的步骤。在此阶段,您可以分析数据集中的每个要素或多个要素并检查其行为。您还可以分析功能与其他功能的关系。您可以期望在此阶段进行大量的数据可视化。在此阶段准备获取一些关键的见解,这些见解将在其他步骤中为您提供帮助
特征工程–特征工程不是那么重要,而是一门艺术。这是一个反复的过程,一个接一个地遍历所有功能并应用操作以提高模型的性能。例如,您可以组合一些强大的功能并尝试改进模型。这将需要大量的反复试验
模型构建– 模型构建本身是相对较快的步骤,但规划很重要。您要使用高精度模型还是可以返回特征重要性的模型?您将需要考虑并选择模型构建和评估策略
部署– 构建并评估模型后,终于可以在实际环境中部署它了。此步骤通常需要数据科学家与数据工程师或机器学习工程师合作
数据科学家解决的问题
正如我在上一节中讨论的那样,数据科学家的角色与所有领域和部门都相关,因此它的应用也是如此。在本节中,我将讨论数据科学家从事的几个问题陈述。
建立模型以预测哪个交易是欺诈性的。
需要对快速流动的数据做出实时决策。
复杂的问题,因为超过99%的交易不是欺诈。
它直接影响组织的底线。
使用了大量过去的客户行为数据。
使用事故中的车辆图像评估保险公司的损失程度
从图像中提取损坏信息是一项非常复杂的任务。
它需要任务的自动化
自动化将帮助当前的团队更好地评估损失。
需要大量的图像数据。
这些是一些问题陈述,并可能根据组织的数据成熟度而有所不同。
您必须知道的基于数据科学的角色
数据科学家–  研究复杂而具体的问题,以使公司实现非线性增长。例如,为银行业制定信用风险解决方案或使用车辆图像并自动评估保险公司的损失。
数据工程师–他/她将通过使用行业最佳实践来实现数据科学家在生产中得出的结果。例如,在银行软件上部署为信用风险建模而构建的机器学习模型。
业务分析师–通过协助管理层每天做出以数据为依据的决策,来帮助企业顺利运营。该角色将与IT端和业务端同时进行通信。
同样,数据科学领域还有许多其他角色,例如数据分析师,统计学家,数据分析经理,MIS专业BI专业人员等。请确保您在进入此领域之前进行了尽职调查。
我很兴奋!数据科学入门需要什么?
数据科学和Python入门: 成为数据科学家的旅程的开始!了解数据科学家的工作,与数据科学相关的各种术语,并开始熟悉Python编程语言
统计学和数学: 数据科学的支柱。您将介绍的一些关键概念是概率,推论统计量,并掌握了如何进行探索性数据分析(EDA)。这还将包括线性代数的基础知识(另一个核心机器学习主题)
机器学习基础知识: 欢迎来到机器学习的世界!本节旨在向您介绍基本的机器学习算法和技术,包括线性回归,逻辑回归,决策树,朴素贝叶斯,支持向量机(SVM)等
集成学习:是 时候深入研究高级机器学习主题了。了解什么是合奏,不同的合奏技术,并开始研究数据集以获得动手实践经验
如果不确定从哪里开始,请查看此数据科学路线图!就像我前面提到的,您可以在BlackBelt +程序的一部分中全面了解所有这些内容。
您必须掌握的数据科学工具
Microsoft Excel  – Excel是处理少量数据的最简单,最受欢迎的工具。它支持的最大行数仅为一百万以上,并且一张纸一次最多只能处理16
职业数据科学-Excel
SQL  – SQL是自1970年代以来最流行的数据管理系统之一。几十年来,它一直是主要的数据库解决方案。SQL仍然很流行,但是有一个缺点–随着数据库的不断增长,很难对其进行扩展。
职业数据科学-SQL
Python  –由于它的易用性,灵活性和开放源代码性质,它是当今行业数据科学中最主要的语言之一。它已在ML社区中迅速获得普及和接受。
蟒蛇
Tableau  –它是当今市场上最受欢迎的数据可视化工具之一。它能够处理大量数据,甚至提供类似于Excel的计算功能和参数。Tableau因其整洁的仪表板和故事界面而倍受赞誉。
职业数据科学-Tableau
数据科学软技能
解决问题的能力–可以通过学习获得统计学和计算机科学的知识,但是领域知识和解决问题的能力将帮助您长远发展。大多数公司都通过解决问题的测试开始数据科学的招聘。您无需精通此技巧,但好奇的头脑会帮助您形成这项技能。
职业数据科学-探究解决
结构化思维-构造思想并规划出每个思想的能力无疑是必不可少的技能。在项目的最初步骤中使用结构化思维,在该步骤中将陈述问题陈述和假设。
职业数据科学-结构化思维
讲故事技能–所有数据科学和分析专业人员必须具备的一项关键技能就是以利益相关者可以理解的格式表达数据的能力-一个故事。这是需要创造力和人类技能的步骤。
职业数据科学-批判性思维
我在学。但是如何获得数据科学招聘人员的认可?
建立您的GitHub个人资料– Github是您保存项目的地方。其他人可以浏览您的项目,添加改进等。这是一个获得重要人士认可并与他们建立联系的好地方。启动您的项目并将其上传到Github。这将帮助您建立牢固的基础。
的GitHub
不断更新您的简历–人类追求完美主义是一种自然的趋势,但这可能是有害的。建议您不要在简历中以半熟的知识将Python,机器学习和SQL结合在一起,而是建议在完善后逐一添加技能。例如,在您熟悉Python之后再添加它,然后再继续进行机器学习。
恢复
参加竞赛–数据科学竞赛是提高您作为数据科学家的绩效的可靠途径。尽管可能需要一段时间才能适应,但从长远来看会有所帮助。您可以继续使用DataHack平台,选择所需的问题说明并开始使用。招聘人员喜欢通过实际应用积累知识的应聘者。
黑客马拉松
开始撰写文章–如果您有数据科学的知识并且对写作充满热情,那么与撰写文章相比,表达自己的更好的方法是什么?文章写作可帮助您学习所有困难的技术概念,并将它们转变为易于掌握的主题。撰写文章是帮助您吸引潜在招聘者的另一种好方法。
博客马拉松
奖励秘诀–寻找导师并个性化您的目标
最后,让我们深入研究在开始数据科学之旅之前必须牢记的事项。我们每个人都是独特的,来自不同的背景。必须以个性化的方式应用以上所有要点,以获得最大的收益。
例如,假设您在IT部门工作了5年,并且希望内部迁移到新组建的数据科学团队。事实证明,数据科学团队主要在NLP方面工作。您将如何处理?您将需要制定自己的个人目标。
整个过程听起来似乎很容易以线性方式实现-学习Python->机器学习->深度学习等,但是在实际情况下并非如此,您需要解决难题的最后一部分科学–导师。
导师可以自定义您的目标和学习路径,并确保您获得与自己相关的行业知识。这就是Analytics Vidhya的旗舰课程– BlackBelt +的制作方式。
BlackBelt +包含所有您需要掌握数据科学艺术的课程,从基本的Python,SQL,Excel到先进的机器学习和深度学习技术。最好的部分是什么?您将始终与导师保持联系。指导者将根据您自己的目标和学习目标设计一条学习路径。
采用这种方法不仅可以帮助您学习,而且可以成为行业领先的专业人员,被称为“ 21世纪最勤奋的工作”。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 Microsoft Analytics Python编程 Python入门

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 01:20