楼主: 时光永痕
681 1

[数据挖掘新闻] 成为数据科学家的第一步 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

56%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
成为数据科学家的第一步
您想成为“数据科学家”吗?如果是,那么第一步是了解基本术语及其用法。
一个简短的历史
数据科学 并不是一个新领域,因为统计学家甚至在计算机发明之前就开始从事这项工作。不过,现代计算机技术的发展使统计学家能够通过大量运算和大量数据存储来解决各种实际问题。在数据库管理系统和关系数据库管理系统发明之后,术语“知识发现”和“数据挖掘”在1980年代后期被广泛使用。在数据库行业注意到业务数据的爆炸式增长之后,1997年在ACM数字图书馆中发布了“大数据”一词。在1990年代后期,“数据科学”一词启发了研究人员和专业人员,并互换使用了“统计学家”一词。
B-基本概念
I-大数据,数据科学与机器学习
任何具有三个V的数据(即体积,多样性和速度)都被视为大数据。大数据无法使用传统的数据分析和处理方式进行处理。数据科学处理大数据并带来有意义的见解。由于规模庞大,数据科学现在依赖于尝试多种可能性以提供最佳解决方案的算法,这就是机器学习。
II-数据挖掘和数据分析
机器学习是一种识别大数据中未知模式的工具,该过程称为数据挖掘,与数据分析不同,该过程以特定的假设开始。
III-大数据分析
将任务分解成较小的部分并分配给可以在地理位置上分散的不同处理器的方法称为“分布式计算”。大数据分析利用分布式计算技术来克服计算难题。
使数据科学变为现实的C技术
–数据基础架构: 它支持数据共享,处理和使用。如今,分布式计算和云计算最为流行。
–数据管理:  DBMS在存储结构化和非结构化数据集方面发挥着重要作用。由于大多数与业务相关的数据都是结构化的,因此SQL知识仍然非常宝贵。
–可视化: 将新获得的见解传达给组织的领导和其他部门非常重要,因此数据可视化技术起着同等重要的作用。
D-数据科学应用
数据科学 可以应用于涉及“大数据”的任何地方。以下仅是几个示例:
欺诈识别
社交媒体分析
在线婚介或约会服务
天气预报
模拟
网络安全…等
电子必须具备数据科学家的技能
I-统计
对于数据科学家来说,必须对统计数据有一个合理的了解,因为它奠定了数据科学的基础。至少,数据科学家需要精通概率,相关性,变量,分布,回归,零假设显着性检验,置信区间,t检验,ANOVA和卡方等概念。在高级阶段,数据科学家需要概念和算法,例如逻辑回归,支持向量机(SVM)和贝叶斯方法。常见的统计分析工具(例如Excel,R和SAS)在数据科学家中非常著名。
II-数据挖掘
分类 –将一组数据对象标记为特定类别。
预测 –建立可产生连续或有序值以形成趋势的模型。
聚类 –将类似的数据对象分组为类…等
自然语言处理– NLP是指计算机通过自然语言与人互动的不同方式。计算机科学,人工智能(AI),计算机语言学和人机交互(HCI)是NLP的不同领域。与数据科学特别相关的一些NLP方面是标记化,解析,句子,分段和命名实体识别。Python 编程语言非常有名,并且是拥有完善的NLP工具的推荐工具。
标记化和解析:从文本中分离出每个符号并进行语法分析
句子分割:在文本中将一个句子与另一个句子分开。
命名实体识别:标识哪个文本符号映射到什么类型的专有名称
机器学习 (有监督和无监督)
可视化 –市场上已经有可以为Tableau等数据科学家提供全面可视化工具的软件。但重要的是要记住,数据科学家始终是数据堆积和决策者之间的中间人。
F-角色和职责
数据科学家或工程师
数据科学家可以在拥有数据并愿意分析其性能和未来预测的任何组织中工作。该角色更多是通才而不是专家。数据科学家与其他数据科学专家(例如机器学习专家)合作。
机器学习专家
这是一个极富创造力和独立性的角色,您需要纪律处分,以确保在截止日期之前完成任务。注意细节和质量至关重要。数学和IT技能至关重要,因为它们构成了机器学习科学家的基础。对统计和概率的深入了解,开发和验证数学模型的能力,将模型转换为算法的能力,精通编程语言(Python,C ++,Java,R…等),对分布式计算的理解是学习计算机的基本技能机器学习专家。
数据科学家必须不断更新自己的知识以保持最新。参加会议,研讨会,同龄人网络和继续教育是保持最新状态的方法。
诸如Amazon,IBM和Google等云供应商。降低了公司使用云计算设施而不是私有内部资源的成本,从而增加了对数据科学家的需求。由于新兴的在线服务,甚至数据科学家也不再担心数据基础架构和管理问题。
机器学习的重要性日益增长,尤其是利用神经网络的深度学习正越来越受到人们的青睐。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学家 数据科学 科学家 Tableau python

沙发
hzhangchina 发表于 2020-11-5 19:40:05 |只看作者 |坛友微信交流群
楼主辛苦,受教了!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 11:46