楼主: Cecilia_za
29162 3

[每天一个数据分析师] 【第五期】处理缺失数据的三种方法:删除缺失样本、替换缺失值、多重插补法 [推广有奖]

  • 0关注
  • 2粉丝

副教授

78%

还不是VIP/贵宾

-

威望
2
论坛币
-4742126 个
通用积分
1.0001
学术水平
10 点
热心指数
15 点
信用等级
10 点
经验
2504 点
帖子
58
精华
2
在线时间
626 小时
注册时间
2015-4-27
最后登录
2018-7-5

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
DA.jpg
“每天一个数据分析师”很荣幸在第五期采访到谢佳标老师,他是梅州人,今年33岁,毕业于华南师范大学,目前在一家上市游戏公司任职高级数据分析师。下面进入正题。

DA您是如何入行的?

佳标:我是数据与应用数学专业出身,数学、统计学基础比较扎实,又钟情于数据,毕业后便从事与数据分析相关的咨询行业工作。在咨询行业任职期间锻炼了我对数据的洞察力和解读能力,使自己的数据分析技能得到迅速提升。后来随着数据挖掘越来越火,我便不断钻研算法模型和专业统计分析工具,慢慢实现了从数据分析向数据挖掘角色的转变。所以,可以说兴趣是最好的老师,如果你热爱某个行业,就会在工作中努力自我提升,不断实现蜕变。

DA您的工作经历,目前的工作职责(做哪块),工作中曾做过的数据分析实例,以及您的职业规划?

佳标:我从事数据挖掘建模工作已有8年,曾经从事过咨询、电商、电购、电力、游戏等行业,了解不同领域的数据特点。有丰富的利用R语言进行数据挖掘实战经验,部分研究成果曾获得国家专利,同时也是公司R语言和数据分析培训的内部讲师。(注:佳标老师是第七届中国R语言大会<广州会场>、第八届中国R语言大会<广州会场、武汉会场>的演讲嘉宾,以及WOT2015年大数据技术峰会的邀请嘉宾。)

目前就职的公司里我主要从事数据分析的研究,及利用R语言进行大数据的挖掘和可视化工作。我曾做过一个数据挖掘技术在游戏领域研究方面应用的项目,起因是游戏公司很多系统目前只能查看汇总数据和统计图表,不能看到明细,运营对统计数据有疑问时只能找后端同事导出相应的明细进行查看,费时费力,且不熟悉数据统计人员的统计原理和数据传输质量问题,也会影响数据统计结果。所以我和同事做了个项目研究利用玩家的历史游戏数据进行数据挖掘分析,并搭建了游戏玩家分析平台,运营同事可以直接在此数据分析平台上进行玩家明细数据查询,并统计玩家核心数据。

我很喜欢从事数据挖掘相关领域的研究,所以我的职业目标是致力于大数据挖掘和可视化,希望将数据价值实现最大化,真正实现大数据大价值。

DA刚才听您分享您做过的项目,解决的问题不简单,能否再给我们讲一个您在工作中遇到的印象更为深刻的困难及其成因?

佳标:工作中遇到的印象深刻的困难主要是做数据分析时数据缺失严重,不能满足正常的分析需求。造成数据缺失严重的背景成因在于我们公司主要是做休闲游戏,没有强制要求玩家填写用户信息,所以玩家的基础属性数据是几乎缺失的。

在收集真实数据的过程中,数据缺失是非常常见的现象,而且影响重大,缺失值的处理可以说是数据预处理中的重中之重。一般而言,数据缺失主要是由以下几个原因造成的:
1) 在数据收集阶段,某些记录或字段丢失;
2) 调查访问中,被访问者拒绝透露相关信息,导致数据的无效性;
3) 由于机械原因,导致数据存储的失败。

DA这个问题最终是如何解决的呢?能否向广大同行分享一下思路?

佳标:在有缺失数据的情况下进行的数据分析是不靠谱的,并且有些统计方法对数据质量要求很高,不允许数据有遗漏,这就要求我们在数据预处理过程中考虑缺失值的问题。基本上,缺失数据处理的流程是,首先判断其模式是否随机,然后找出缺失的原因,最后对缺失值进行处理。

数据缺失的弥补可以通过多种途径完善。第一种是在游戏中嵌入问卷调查,设置好各种需要采集的基础属性字段信息让玩家在登录游戏时填写,通过用户自己填写的方式进行数据收集。第二种方式是通过合作方的形式收集用户基础信息。但这两种方法收集的样本量是有限的,相对于我们上亿的用户量来讲属于小样本。所以我们通过数据挖掘技术进行用户基础属性的预测工作。将已知属性的用户当作是研究对象,并利用处理数据不平衡技术(利用R语言的DMwR包中的SMOTE函数进行失衡数据处理),研究不同性别、年龄等玩家在游戏中的行为情况,通过明显的行为特征来进行属性预测,从而实现数据缺失的弥补工作,也为接下来的数据分析工作的顺利进行做好准备。

具体而言,处理缺失数据主要有三种方法。
1) 删除缺失样本:过滤掉缺失样本时最简单的方式,其前提是缺失数据的比例较少,而且缺失数据是随机出现的,这样删除缺失数据后对分析结果影响不大。R中可以使用cmplete.cases( )指令选取完整的记录,有缺失值的行则删去不要。
2) 替换缺失值:缺失值不一定要完全剔除,最常见的是通过赋值来解决,用变量均值或中位数来替代缺失值,这样的优点在于不会减少样本信息,处理起来简单,但缺点在于缺失数据不是随机出现时会产生偏差。
3) 多重插补法:是用于填补复杂数据缺失值的一种方法,该方法通过变量间关系来预测缺失数据,利用蒙特卡罗随机模拟方法生成多个完整数据集,再对这些数据集分别进行分析,最后对这些分析结果进行汇总处理。

DA谢谢分享。请问您对希望从事数据分析行业的职场人有哪些建议?

佳标:我的建议是可以选择一款目前比较流行的开源软件:R、Rattle、Python、RapidMiner、Weka等,通过工具的使用提升自己的分析能力。

另外建议大家在学数据分析时,一定要坚持学以致用,把自己学到的数据分析知识应用到实际工作中,这样才能让学到的知识更加牢固。

DA请问您如何看待数据分析师行业的就业前景及未来发展?

佳标:随着从IT到DT时代的到来,数据越来越被企业重视,如何从数据中发现价值,从而跑赢竞争对手已经成为每个企业高管必须考虑的问题。所以数据分析师行业的就业前景良好,数据分析师(数据科学家)将成为未来十年最抢手的职位。

DA请您推荐一些平时在网络上学习专业知识的平台吧。

佳标:经管之家、统计之都、excelhome论坛、中国统计网、炼数成金等网站都是学习数据分析不错的地方。或者加入一些专业的QQ群或关注与数据有关的公众号,了解数据分析的动态和前沿技术。

DA谢谢您对我们的支持,您平时工作之余都做些什么呢?有什么特长爱好呢?

佳标:工作之余主要逛逛与数据分析相关的论坛,关注一些前沿技术,看看书充实自己。爱好的话我比较喜欢玩休闲游戏、下中国象棋等。

DA最后,方便留下您的联系方式以便交流吗?(建议大家直接在后台提问,我们会统一整理并反馈给被访者,这样彼此都能节约时间提高效率。)

佳标:QQ:398580551  邮箱:jiabiao1602@163.com

DA谢谢您。今天的采访到此结束,我们再会。

后记:这是“每天一个数据分析师”的第五期采访,非常感谢受访的各位老师以及订阅读者向我们提出的各种建议,我们期待更多的声音!我们计划每天采访一个数据分析师(覆盖各行各业),听TA在从业路上的故事,讲TA在工作中遇到的种种困难以及采取的解决方案。欢迎大家踊跃推荐或者自荐。联系我们请直接在微信留言或发邮件到:adaaday@pinggu.org

简介:我们是经管之家(原人大经济论坛)CDA数据分析师培训旗下的公众账号“每天一个数据分析师“。旨在通过采访数据分析师来讲述数据分析在各行业应用情况或其他重要问题,藉此展示分析师自身水平和风采,打造个人品牌,助力升职加薪和求职。同时也让社会公众了解数据分析师这个群体。每一篇头条专访将会给您带来大量关注,这是为您精心打造的炫丽舞台,请善用这个共同的平台。
DA二维码.jpg




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:缺失数据 多重插补 缺失值 EXCELHOME论坛 RapidMiner 样本

他很懒,什么都不想写
沙发
polaris05 发表于 2015-10-26 09:35:44 |只看作者 |坛友微信交流群
谢谢分享

使用道具

藤椅
bjbluefish 发表于 2015-12-30 10:03:05 |只看作者 |坛友微信交流群
受教了

使用道具

板凳
luorongjin 发表于 2016-8-4 15:58:49 |只看作者 |坛友微信交流群
谢谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-3 09:19