人大经济论坛 › 论坛 › 休闲区十二区 › 休闲灌水 › 在数据需要从源头进行有效地收集和检索，而且在使用前需 ...

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 破例活出秘密

506 0

[休闲其它] 在数据需要从源头进行有效地收集和检索，而且在使用前需要进行清 [推广有奖]

0关注
0粉丝

初中生

85%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 100 点
帖子: 15
精华: 0
在线时间: 0 小时
注册时间: 2019-6-11
最后登录: 2019-6-11

楼主

破例活出秘密 发表于 2019-6-11 18:42:42 来自手机 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我在一家数据科学培训公司工作。对于学员，我常常给出的建议并不是推荐库或者工具，而是让他们首先明确自己想成为什么样的数据科学家，确定自己的方向。 
当中的原因在于，数据科学并不是单一且定义明确的领域，公司并不会雇用所谓的全能型数据科学家，而是会选择有拥专业技能的个人。 
为了更好的理解，假设你们公司想聘请数据科学家。那么，你们肯定有明确的问题需要解决，而这需要具体的技术知识和专业知识。例如，有些公司将简单模型应用于大型数据集；有些公司将复杂模型应用于小型模型；有些公司需要动态训练模型；有些公司根本不使用（传统）模型。 
以上这些都需要完全不同的技能。对于想进入数据科学领域的人群收到的建议往往是：学习使用Python，构建分类/回归/聚类等项目在开始找工作，这其实是不太合理的。 
数据科学家在工作中承担了很多责任。人们会将过多的内容归入“数据科学”的范畴。为生产构建强大的数据管道，这应该是数据科学方面的问题。开发一种新的神经网络，这应该是数据科学方面的问题。 
这种现象并不好，因为这会让有抱负的数据科学家失去方向和对特定问题的关注。 
为了避免成为全能型数据科学家，再次之前让我们先了解数据科学领域主要有哪些职位，以及他们常常被混淆的原因： 
 数据工程师
&gt; 职位描述
为处理大量数据的公司管理数据管道。这意味着在数据需要从源头进行有效地收集和检索，而且在使用前需要进行清理和预处理。 
&gt; 重要性
如果你只使用过存储在.csv或.txt文件中的相对较小的数据集(小于5G)，那么你可能很难理解为什么需要专人维护数据管道。
当中的原因在于：1）计算机很难承载大小为50 G的数据集，因此需要以其他方式将其提供给模型；2）大量数据可能需要花费大量时间来处理，并且经常需要冗余存储。进行管理存储需要专业的技术知识。 
&gt; 技能要求
你需要使用Apache Spark、Hadoop、Hive和Kafka。还需要有扎实的SQL的基础。 
&gt; 处理的问题
如何构建每分钟能处理1万个请求的管道？
如何在不将其全部加载到RAM的情况下清理该数据集？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

[休闲其它] 在数据需要从源头进行有效地收集和检索，而且在使用前需要进行清 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[休闲其它] 在数据需要从源头进行有效地收集和检索，而且在使用前需要进行清 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群