楼主: Still..
7436 22

[行业动态] 数据挖掘中最易栽的10个大坑! [推广有奖]

学术权威

52%

还不是VIP/贵宾

-

威望
5
论坛币
79420 个
通用积分
26693.7016
学术水平
603 点
热心指数
378 点
信用等级
577 点
经验
166869 点
帖子
1914
精华
56
在线时间
2362 小时
注册时间
2011-8-30
最后登录
2024-2-27

楼主
Still.. 企业认证  发表于 2015-11-24 09:48:40 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

本文来自:中国统计网

按照Elder博士的总结,这10大易犯错误包括:
0. 缺乏数据(Lack Data)
1. 太关注训练(Focus on Training)
2. 只依赖一项技术(Rely on One Technique)
3. 提错了问题(Ask the Wrong Question)
4. 只靠数据来说话(Listen (only) to the Data)
5. 使用了未来的信息(Accept Leaks from the Future)
6. 抛弃了不该忽略的案例(Discount Pesky Cases)
7. 轻信预测(Extrapolate)
8. 试图回答所有问题(Answer Every Inquiry)
9. 随便地进行抽样(Sample Casually)
10. 太相信最佳模型(Believe the Best Model)


0. 缺乏数据(Lack Data)

对于分类问题或预估问题来说,常常缺乏准确标注的案例。
例如:
-欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。
-信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。



1. 太关注训练(Focus on Training)

IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。
实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)
例如:
-癌症检测(Cancer detection):MD Anderson的医生和研究人员(1993)使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。
-机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。
解决方法:
解决这个问题的典型方法是重抽样(Re-Sampling)。重抽样技术包括:bootstrap、cross-validation、jackknife、leave-one-out…等等。



2. 只依赖一项技术(Rely on One Technique)

IDMer:这个错误和第10种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。
“当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。
不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。
研究结果:按照《神经网络》期刊的统计,在过去3年来,只有1/6的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。
解决方法:
使用一系列好的工具和方法。(每种工具或方法可能最多带来5%~10%的改进)。



3. 提错了问题(Ask the Wrong Question)

IDMer:一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。
a)项目的目标:一定要锁定正确的目标
例如:
欺诈侦测(关注的是正例!)(Shannon实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。
b)模型的目标:让计算机去做你希望它做的事
大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。



4. 只靠数据来说话(Listen (only) to the Data)

IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢?
4a.投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。
4b.经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。



5. 使用了未来的信息(Accept Leaks from the Future)

IDMer:看似不可能,却是实际中很容易犯的错误,特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。
预报(Forecast)示例:预报芝加哥银行在某天的利率,使用神经网络建模,模型的准确率达到95%。但在模型中却使用了该天的利率作为输入变量。
金融业中的预报示例:使用3日的移动平均来预报,但却把移动平均的中点设在今天。
解决方法:
要仔细查看那些让结果表现得异常好的变量,这些变量有可能是不应该使用,或者不应该直接使用的。
给数据加上时间戳,避免被误用。



6. 抛弃了不该忽略的案例(Discount Pesky Cases)

IDMer:到底是“宁为鸡头,不为凤尾”,还是“大隐隐于市,小隐隐于野”?不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。
异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。
研究中最让激动的话语不是“啊哈!”,而是“这就有点奇怪了……”
数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。
例如:
在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而可能是新的营销机会。
解决方法:
可视化可以帮助你分析大量的假设是否成立。



7. 轻信预测(Extrapolate)

IDMer:依然是辩证法中的观点,事物都是不断发展变化的。
人们常常在经验不多的时候轻易得出一些结论。
即便发现了一些反例,人们也不太愿意放弃原先的想法。
维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。
解决方法:
进化论。没有正确的结论,只有越来越准确的结论。



8. 试图回答所有问题(Answer Every Inquiry)

IDMer:有点像我爬山时鼓励自己的一句话“我不知道什么时候能登上山峰,但我知道爬一步就离终点近一步。”
“不知道”是一种有意义的模型结果。
模型也许无法100%准确回答问题,但至少可以帮我们估计出现某种结果的可能性。



9. 随便地进行抽样(Sample Casually)

9a 降低抽样水平。例如,MD直邮公司进行响应预测分析,但发现数据集中的不响应客户占比太高(总共一百万直邮客户,其中超过99%的人未对营销做出响应)。于是建模人员做了如下抽样:把所有响应者放入样本集,然后在所有不响应者中进行系统抽样,即每隔10人抽一个放入样本集,直到样本集达到10万人。但模型居然得出如下规则:凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都会响应营销。这显然是有问题的结论。(问题就出在这种抽样方法上,因为原始数据集已经按照邮政编码排序,上面这三个地区中不响应者未能被抽取到样本集中,故此得出了这种结论)。
解决方法:“喝前摇一摇!”先打乱原始数据集中的顺序,从而保证抽样的随机性。
9b 提高抽样水平。例如,在信用评分中,因为违约客户的占比一般都非常低,所以在建模时常常会人为调高违约客户的占比(比如把这些违约客户的权重提高5倍)。建模中发现,随着模型越来越复杂,判别违约客户的准确率也越来越高,但对正常客户的误判率也随之升高。(问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了)
解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。



10. 太相信最佳模型(Believe the Best Model)

IDMer:还是那句老话-“没有最好,只有更好!”
可解释性并不一定总是必要的。看起来并不完全正确或者可以解释的模型,有时也会有用。
“最佳”模型中使用的一些变量,会分散人们太多的注意力。(不可解释性有时也是一个优点)
一般来说,很多变量看起来彼此都很相似,而最佳模型的结构看上去也千差万别,无迹可循。但需注意的是,结构上相似并不意味着功能上也相似。
解决方法:把多个模型集装起来可能会带来更好更稳定的结果。


避免大坑有没有妙招?

CDA数据分析师LEVEL Ⅱ建模数据分析系统培训来帮您!




时间:2015年12月3至20日 (八天)@上海

          2016年1月14至31日(八天)@北京

地点:上海,铁道宾馆

          北京,经管之家会议室

学费:7400元 (面授)

          5500元(远程)

优惠:

1.     全日制学生及CDA LEVEL Ⅰ老学员8折优惠(学生证证明文件)

2.     同一单位三人及以上报名9折优惠,五人及以上8折优惠

3.     CDA LEVEL Ⅰ等级资格证书持有者立省1000元

4.     同时报名参加LEVELⅠ和LEVEL Ⅱ享受8折优惠。

点击查看LEVEL Ⅰ课程详情         以上优惠不可叠加!

5.     报名任何一个专题可额外添加1000元获得另一个专题的全套视频。

(上海现场面授)

(北京现场面授)

(远程直播)


联系方式:

陈老师

QQ:28819897092881989709

Tel:010-68411404

Mail:chenwenjing@pinggu.org

王老师

QQ:28819897102881989710
Tel:010-68725927
Mail: wangzhenda@pinggu.org


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 Validation CDA LEVEL detection Technique 经典

已有 1 人评分经验 收起 理由
icolee + 60 精彩帖子

总评分: 经验 + 60   查看全部评分

加入数据科学交流圈,获取最新行业资讯、研究报告、免费学习资源!咨询微信:CDAdata01
沙发
Still.. 企业认证  发表于 2015-11-24 09:58:16 |只看作者 |坛友微信交流群
讲师简介

李御玺,教授,国立台湾大学资讯工程博士,铭传大学资讯工程学系教授,铭传大学大数据研究中心主任,中华数据挖掘协会理事,云南财经大学信息学院客座教授,浙江大学城市学院客座教授,厦门大学数据挖掘中心顾问,中国人民大学数据挖掘中心顾问,IBM SPSS-China顾问,SAS-Taiwan顾问。在其相关研究领域已发表超过260篇以上的研究论文,同时也是国科会与教育部多个相关研究计划的主持人。

服务过的客户包括:中国工商局、中信银行、台新银行、联邦银行、新光银行、 新竹国际商业银行(现已并入渣打银行)、第一银行、永丰银行、远东银行、美商大都会人寿、嘉义基督教医院、台湾微软、零售业如赫莲娜(Helena Rubinstein)化妆品公司、特立和乐(HOLA)公司、航空公司如东方航空公司、中华航空公司、汽车行业如福特(Ford)汽车公司;政府行业如国税局等。


徐筱刚男,高级数据分析师,具有深厚的数理统计与应用数据分析专业背景,上海某金融机构数据分析部门高级DA,具有八年数据分析、数据挖掘的从业经验,曾就职零售企业、咨询公司等,独立或带团队完成零售、电信、金融等多个大型数据挖掘项目。


常国珍,曾为德勤管理咨询高级数据挖掘咨询顾问,SAS官方培训资深讲师,2014年SAS软件大赛判卷人,曾以数据挖掘工程师身份就职于亚信科技(中国)有限公司市场部。具有八年的数据挖掘实战经验,主攻分类模型,涉及客户精准营销、信用评估、价值提升、欺诈侦测和流失预警等数据挖掘主题,尤其熟悉银行个人客户精准营销的建模工作。

资格认证:SAS全球认证“Certified Statistical Business Analyst Using SAS 9 Regression and Modeling”、“Certified Advanced Programmer for SAS 9”。


加入数据科学交流圈,获取最新行业资讯、研究报告、免费学习资源!咨询微信:CDAdata01

使用道具

藤椅
众创空间 发表于 2015-11-24 10:00:58 |只看作者 |坛友微信交流群
大叔说的很不错哦

使用道具

板凳
Still.. 企业认证  发表于 2015-11-24 10:06:07 |只看作者 |坛友微信交流群

详细大纲


第一部分(4天)



上海:2015年12月3-6日

北京:2016年1月14-17日



主题



以企业场景、真实案例教学方式,利用SPSS MODELER和WEKA两个工具来贯穿数据挖掘建模的整个内容,包括基础、算法、建模、进阶、模型优化、应用等。



应用范围



《营销活动及信用风险控制》 《企业如何处理原始数据》 《如何根据业务选取有效变量》 《如何建立交叉销售模型》 《如何建立信用评分模型》 《如何进行模型优化》 《企业如何建立预测模型》 《客户分群精准化营销》



算法理论



KDD、CRISP DM—数据处理—统计检验—决策树、罗吉斯回归、包装法—贝氏网络—神经网络—支持向量机—随机森林—聚类分析—关联分析—序列分析



案例操作



【营销客户分群】【银行风险预测】【网站行为关联分析】【商品关联规则】【交叉销售】【客户流失预警】【天气预测】【药物治疗】【疾病诊断】【零售购物篮组合】【银行金融产品序列分析】



第二部分(4天)

(SAS专题)



上海:2015年12月12-13,19-20日



主题



以SAS为工具,讲解SAS软件中高级编程技术,并运用SAS进行数据挖掘流程化操作。



应用范围



《银行、证券等金融企业》《大型零售企业》《通信行业》《医疗行业》



软件技术



《SAS基础编程》《SAS数据管理》《SAS编程进阶》《SAS与SQL》《SAS宏语言》《程序优化》



案例操作



【数据驱动的风险管理】【信用卡违约预测模型案例流程】【信用评分模型】【电信客户流失预警】



第二部分(4天)

(PYTHON专题)



北京:2016年1月23-24,30-31日



主题



以PYTHON为工具,讲解PYTHON软件数据挖掘编程技术,并运用PYTHON



应用范围



《互联网企业》《网站分析》《网络产品与运营》《其他》



软件技术



《PYTHON语法基础》《PYTHON数据挖掘包》《主成分与因子分析》《聚类分析》《预测分析》《文本分析》《社会网络分析》



案例操作



【汽车类型聚类与地域购买偏好分析】【婚恋网站被约会可能性预测】【零售业客户价值预测模型】【新闻内容分类】【构造新闻热点词指数】【电信客户交友圈与流失预警】




加入数据科学交流圈,获取最新行业资讯、研究报告、免费学习资源!咨询微信:CDAdata01

使用道具

报纸
Still.. 企业认证  发表于 2015-11-24 10:09:28 |只看作者 |坛友微信交流群
主要操作案例:

1.银行客户营销案例:某银行希望通过提供客户对的营销活动,在未来实现更多的获利。此案例的目的是想根据以往的促销活动,利用数据挖掘找出会对营销活动有响应的客户特征,并根据建模的结果产生要邮寄的促销客户名单。
2.信用评等案例:某银行希望根据客户过去的贷款数据,利用数据挖掘来预测新的贷款者,核贷后会逾期的机率,以做为银行是否核贷的依据,或提供给客户其他类型的贷款产品。
3.电信客户分类(不同套餐选择)案例:某电信服务提供商通过客户使用服务的方式,将客户分为四类人。此案例的目的是想根据人口统计数据,利用数据挖掘找出这四类人的特征,并发掘这四类人的潜在新客户。
4.电信客户流失案例:某电信服务提供商非常关注是否客户会流失到竞争对手。假如服务使用的数据可以用来预测哪些客户有可能被转移到另一个提供商,则此提供商可提供客制化的优惠,以尽可能留住客户。此案例的目的是想根据服务使用的数据,利用数据挖掘来预测客户的流失。
5.新车设计案例:某汽车制造商开发两种新车(汽车及卡车)的原型。在将新车型引入至产品系列之前,该制造商想知道竞争对手已经上市的车辆中,哪些与这两款产品的原型最为相似,以确定这两种新车将与哪些车型展开竞争。

次要操作案例:

1.天气(Weather)案例
2.玻璃制品(Glass)案例
3.电信产品跨销售(Cross-Selling)案例
4.药物治疗(Drag Diagnosis)案例
5.糖尿病(Diabetes)案例
6.乳癌(Breast Cancer)案例
7.临床路径选择(Clinical Path)案例
8.电离层雷达侦测(Ionosphere)案例
9.寿险推销(Insurance Promotion)案例
10.影像分类(Image)案例
11.便利超商选点(Convenient Store)案例
12.零售促销预测(Retail Promotion)案例
13.房价(Home Price)预测案例
14.汽车油耗(MPG)预测案例
15.CPU效能(CPU Performance)预测案例
16.银行客户购买金融商品(Financial Product)之关联分析(Association Analysis)案例
17.文具(Stationery)及健康美容(Health & Beauty)用品之关联分析(Association Analysis)案例
18.银行客户购买金融商品(Financial Product)之序列分析(Sequential Analysis)案例
加入数据科学交流圈,获取最新行业资讯、研究报告、免费学习资源!咨询微信:CDAdata01

使用道具

地板
浮世若离丶 发表于 2015-11-24 10:13:14 |只看作者 |坛友微信交流群
数据挖掘优质课程 值得参加!

使用道具

7
face645 发表于 2015-11-24 10:22:02 |只看作者 |坛友微信交流群
数据挖掘分析师,高薪就业!

使用道具

8
匿名网友  发表于 2015-11-24 11:02:56 |坛友微信交流群
说得很好啊

使用道具

9
lxy444 学生认证  发表于 2015-11-24 13:06:25 |只看作者 |坛友微信交流群
分析的不错

使用道具

10
wangluan 发表于 2015-11-24 13:37:00 |只看作者 |坛友微信交流群
说的不错,支持一下

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-10 03:12