楼主: 时光永痕
333 0

[数据挖掘新闻] 作为数据科学家,您应该学习的第一件事-不是您的想法 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

30%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
作为数据科学家,您应该学习的第一件事-不是您的想法
我不确定下面的这些主题是否还在数据集中营或大学课程中讨论过。问题之一是教师的招募方式。招聘过程有利于以其学术成就或“明星”身份而闻名的个人,而且他们往往一遍又一遍地教同一件事。成功的专业人士对成为老师的兴趣不大(俗话说:如果做不到,就写出来,如果不能写,就教出来。)
不一定要那样。尽管不是明星,但很多合格的专业人员将是完美的老师,并且不一定会受到金钱的激励。他们在战trench中积累了丰富的经验,可以成为出色的老师,帮助学生处理真实数据。他们并不需要成为数据科学家,许多工程师完全有能力(并且有资格)提供出色的数据科学培训。
数据科学课程中应尽早教授的主题
我建议以下内容:
关于算法工作原理的概述
不同类型的数据和数据问题(丢失数据,重复数据,数据错误),以及探索实际样本数据集并对其进行建设性批评
如何识别有用的指标
数据科学项目的生命周期
编程语言和基本命令行指令简介(Unix命令:grep,sort,uniq,head,Unix管道等)。
与非专家交流结果并理解决策者的请求(将请求转换为数据科学家的行动项目)
具有优点和缺点的流行技术概述以及何时使用它们
实例探究
能够识别有缺陷的研究
相比之下,这是传统数据科学课程中首先讨论的典型主题列表:
概率论,随机变量,最大似然估计
线性回归,逻辑回归,方差分析,一般线性模型
K-NN(最近邻居聚类),层次聚类
假设检验,非参数统计,马尔可夫链,时间序列
NLP,尤其是世界云(应用于小样本Twitter数据)
协同过滤算法
神经网络,决策树,线性判别分析,朴素贝叶斯
这些技术从根本上没有什么错误(最后两种除外),但是您不太可能在职业生涯中使用它们-无论如何不是课堂上介绍的基本版本-除非您是一群志同道合的人都使用相同的老式黑匣子工具。确实,应该教他们,但可能不是一开始。
数据科学课程中也应包含的主题
下列内容一开始不应该教,但它们非常有用,并且很少包含在标准课程中:
模型选择,工具(产品)选择,算法选择
经验法则
最佳实践
将非结构化数据转换为结构化数据(创建分类法,分类算法和自动标记)
混合多种技术以充分利用每种技术,  如此处所述
评估模型的效果(R平方是最差的指标,但通常是教室中唯一教授的指标)
数据扩充(查找外部数据集和功能以获得更好的预测能力,将其与内部数据混合)
建立自己的自制模型和算法
的大数据的诅咒(从维数灾难不同),以及如何相关和因果关系区分
数据科学实现(例如,查询表)应多久更新一次
从设计原型到在生产模式下进行部署:警告
蒙特卡洛模拟(一种简单的替代方法,可以计算置信区间并测试统计假设,甚至不知道什么是随机变量。)
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学家 数据科学 科学家 学习的 twitter

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-27 05:01