楼主: ada89k
1496 3

2017 年首份全方位对比中美数据科学报告 [推广有奖]

  • 3关注
  • 72粉丝

院士

99%

还不是VIP/贵宾

-

威望
2
论坛币
348830 个
通用积分
9.0458
学术水平
123 点
热心指数
149 点
信用等级
82 点
经验
46289 点
帖子
1667
精华
3
在线时间
2443 小时
注册时间
2017-2-7
最后登录
2024-4-22

楼主
ada89k 在职认证  发表于 2017-12-2 14:28:53 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

2017 年首份全方位对比中美数据科学报告



导语
Kaggle最近对机器学习及数据科学领域进行了全行业深度调查,调查共收到超过 16,000 份回复,受访内容包括最受欢迎的编程语言是什么,不同国家数据科学家的平均年龄是什么,不同国家的平均年薪是多少等。

不过,因为中国的数据收集不够全面,而美国数据也同样存在清洗不够的情况,所以,以下数据仅供参考。希望Kaggle下次能将数据做得更透彻更深入更全面。

中美数据科学和机器学习对比的角度呈现如下:

中美数据工作者概况对比
年龄
从世界范围来看,本次调查对象的平均年龄大约 30 岁,当然,这个值在各个国家之间有变动。

以下为中美调查对象的年龄对比:

QQ截图20171202140830.png



中国

在中国,机器学习从业者年龄的中位数是25岁,从业者集中在20-30岁年龄段。这可能反映出中国从业者人群的大体分布,但鉴于Kaggle所统计到的数据量,其中的细节还值得商榷一番。

QQ截图20171202140916.png



美国

在美国,机器学习从业者年龄的中位数是32岁,以20-30岁年龄段的人数最多。但令人意外的是,我们在图表中看到一位年满100岁的大牛,还有几位年龄接近0岁的小朋友。我们尚不清楚Kaggle这里数据清洗的细节,不过这几位大牛果真存在的话,务请联系AI科技大本营,我们对您的存在非常感兴趣。

中美就业状况对比
中国全职工作者占53.%%,美国则高达70.9%

QQ截图20171202140922.png



中国

QQ截图20171202140927.png



美国

中美数据科学具体职位对比图
数据科学领域可涵盖的工作非常多,包括机器学习工程师,数据分析师,数据科学家,软件开发人员,数据挖掘人员等。以下为中美在数据科学领域的对比图:

QQ截图20171202140934.png



中国

QQ截图20171202140940.png



美国

年薪
从全球来看,数据科学人员的年薪中位数为55,441。在中国,数据科学家的年薪中位数为29,835。美国则高达$110,000

QQ截图20171202140946.png



中国全职年薪

QQ截图20171202140951.png



美国全职年薪

最高学历
通常来讲,数据科学从业者中最普遍的学历是硕士,但一般来讲,博士学位能拿到(150K−200K 和 $200k+)的高薪。

就中国而言,硕士学位在总体占比为40.5%,博士仅11.2%,本科学位从业人数则高达39.5%,与硕士从业人数持平。

而美国,硕士学位只有44.5%,博士学位高达20.7%,本科从业者占比也高达26.5%。

总的来说,美国博士学位高达20.7%,从占比上来看,接近中国的两倍(中国为11.2%)。

QQ截图20171202141004.png



中国

QQ截图20171202141012.png



美国

数据科学家到底是怎么工作的?
工作中使用什么样的方法?
Logistic回归是除了军事和国安领域外,最常用的数据科学研究方法。在军事和国防安全领域,神经网络使用地更多。

QQ截图20171202141019.png



所有国家整体数据

数据工作中使用最多的工具语言是?
总体来说,Python是数据工作者使用最多的语言。同时,数据研究人员对R语言的忠诚度也很高。

QQ截图20171202141028.png



所有国家整体数据

工作中使用什么类型的数据?
关系型数据市是最常用的数据类型。但在学术研究者和国防安全领域则更亲睐文本和图像。

QQ截图20171202141034.png



所有国家整体数据

工作中使用什么样的代码共享和托管方式?
大部分数据工作者使用Git分享代码。不过,大公司的工作者更喜欢将代码保留在本地,并将代码用邮件分享。初创公司则用更快捷的云分享方式。

QQ截图20171202141039.png



所有国家整体数据

工作中遇到了什么样的障碍?
脏数据(Dirty Data)是最大障碍。机器有侧重,但理解不同算法的能力不够也是一大困扰数据工作者的障碍。缺乏有效管理和资金支持是数据工作者面临的两大外在困境。

QQ截图20171202141044.png



数据科学新手如何在这个行业崭露头角?
根据你的经验,你会向数据科学新手推荐使用哪种语言?
这个因人而异。在Python和R两大使用群体最大的语言中,大部分人觉得Python更值得被推荐。

QQ截图20171202141049.png



你从哪里获得数据科学的学习资源?
数据科学是个变化极快的领域,业内人员需要不断更新知识体系,才可以在业内保持一定地位,不被时代淘汰。Stack Overflow Q&A,Conferences,和Podcasts是已从业者经常使用的学习平台。发布新软件时,一定记住阅读官方使用指南,并推荐去YouTube观看使用视频。

QQ截图20171202141106.png



从哪里获得开放数据集?
没有数据就没有数据科学!当涉及到一些数据科学技巧时,知道如何找到练习所用的干净的开源数据集和项目非常重要。越来越多人开始使用我们的数据集聚合器(https://www.kaggle.com/datasets ).

QQ截图20171202141112.png



通过什么渠道获得工作?
根据数据科学领域过来人的经验,以下这些方法可能会比在公司网站,招聘网站上投递简历更高效,比如通过建立自己在这个行业的关系网络。

QQ截图20171202141116.png



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据科学 全方位 科学报 Conferences Conference 机器学习 机器学习技术 机器学习薪资 数据科学家 机器学习行业

沙发
tmdxyz 发表于 2017-12-2 14:59:42 |只看作者 |坛友微信交流群
学习了 谢谢楼主

使用道具

藤椅
yunnandlg 在职认证  学生认证  发表于 2017-12-2 15:15:33 |只看作者 |坛友微信交流群
谢谢分享

使用道具

板凳
ccmchy 在职认证  企业认证  发表于 2017-12-3 17:59:18 |只看作者 |坛友微信交流群
thanks

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 13:53