发帖

楼主: 时光永痕

689 0

[数据挖掘新闻] 作为数据科学家，您应该学习的第一件事-不是您的想法 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

19%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-9-28 18:35:03 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

作为数据科学家，您应该学习的第一件事-不是您的想法
我不确定下面的这些主题是否还在数据集中营或大学课程中讨论过。问题之一是教师的招募方式。招聘过程有利于以其学术成就或“明星”身份而闻名的个人，而且他们往往一遍又一遍地教同一件事。成功的专业人士对成为老师的兴趣不大（俗话说：如果做不到，就写出来，如果不能写，就教出来。）
不一定要那样。尽管不是明星，但很多合格的专业人员将是完美的老师，并且不一定会受到金钱的激励。他们在战trench中积累了丰富的经验，可以成为出色的老师，帮助学生处理真实数据。他们并不需要成为数据科学家，许多工程师完全有能力（并且有资格）提供出色的数据科学培训。
数据科学课程中应尽早教授的主题
我建议以下内容：
关于算法工作原理的概述
不同类型的数据和数据问题（丢失数据，重复数据，数据错误），以及探索实际样本数据集并对其进行建设性批评
如何识别有用的指标
数据科学项目的生命周期
编程语言和基本命令行指令简介（Unix命令：grep，sort，uniq，head，Unix管道等）。
与非专家交流结果并理解决策者的请求（将请求转换为数据科学家的行动项目）
具有优点和缺点的流行技术概述以及何时使用它们
实例探究
能够识别有缺陷的研究
相比之下，这是传统数据科学课程中首先讨论的典型主题列表：
概率论，随机变量，最大似然估计
线性回归，逻辑回归，方差分析，一般线性模型
K-NN（最近邻居聚类），层次聚类
假设检验，非参数统计，马尔可夫链，时间序列
NLP，尤其是世界云（应用于小样本Twitter数据）
协同过滤算法
神经网络，决策树，线性判别分析，朴素贝叶斯
这些技术从根本上没有什么错误（最后两种除外），但是您不太可能在职业生涯中使用它们-无论如何不是课堂上介绍的基本版本-除非您是一群志同道合的人都使用相同的老式黑匣子工具。确实，应该教他们，但可能不是一开始。
数据科学课程中也应包含的主题
下列内容一开始不应该教，但它们非常有用，并且很少包含在标准课程中：
模型选择，工具（产品）选择，算法选择
经验法则
最佳实践
将非结构化数据转换为结构化数据（创建分类法，分类算法和自动标记）
混合多种技术以充分利用每种技术，如此处所述
评估模型的效果（R平方是最差的指标，但通常是教室中唯一教授的指标）
数据扩充（查找外部数据集和功能以获得更好的预测能力，将其与内部数据混合）
建立自己的自制模型和算法
的大数据的诅咒（从维数灾难不同），以及如何相关和因果关系区分
数据科学实现（例如，查询表）应多久更新一次
从设计原型到在生产模式下进行部署：警告
蒙特卡洛模拟（一种简单的替代方法，可以计算置信区间并测试统计假设，甚至不知道什么是随机变量。）
1

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据科学家数据科学科学家学习的 twitter

[数据挖掘新闻] 作为数据科学家，您应该学习的第一件事-不是您的想法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] 作为数据科学家，您应该学习的第一件事-不是您的想法 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群