楼主: ZQZ520
3450 0

[学科前沿] WEKA_数据挖掘技术与应用_名师主讲_全国网络直播 [推广有奖]

  • 2关注
  • 49粉丝

院士

17%

还不是VIP/贵宾

-

威望
4
论坛币
-1176554 个
通用积分
6481.7282
学术水平
99 点
热心指数
203 点
信用等级
94 点
经验
31703 点
帖子
655
精华
7
在线时间
2457 小时
注册时间
2014-5-7
最后登录
2021-8-4

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

       在现今大数据的时代,各行各业都迫切地想要利用大数据来解决它们的问题。银行业想知道哪些顾客会有信用风险;哪些客户会对财富管理有兴趣。保险业想知道哪些理赔会有诈欺的行为;哪些客户会对投资型保单有兴趣,电信业想知道哪些客户会流失。针对大数据分析上的应用与案例,以及进入大数据后分析方式的转变,运用Open Source-WEKA, 做广泛且深入的探讨,从认识到有一定的程度及水平。WEKA在分类的问题上,提供超过100种的算法;在数据前处理上,提供超过75种的算法;在关键字段的选择上,提供超过25种的算法;在聚类及关联规则的问题上,则提供超过20种的算法。


      李御玺(Yue-Shi Lee),国立台湾大学计算机工程博士,铭传大学计算机工程学系教授,铭传大学大数据研究中心主任,中华资料采矿协会理事, 浙江大学城市学院客座教授,云南财经大学信息学院客座教授, 厦门大学数据挖掘中心顾问,中国人民大学数据挖掘中心顾问。其研究领域专注于大数据、数据挖掘、与文本挖掘。


      李博士在其相关研究领域已发表超过280篇以上的研究论文,同时也是台湾科技部与教育部多个相关研究计划的主持人。服务过的客户包括:中国工商局、中信银行、台新银行、联邦银行、新光银行、新竹国际商业银行(现已并入渣打银行)、第一银行、永丰银行、远东银行、美商大都会人寿、嘉义基督教医院、台湾微软、零售业如赫莲娜(Helena Rubinstein)化妆品公司、特立和乐(HOLA)公司、航空公司如东方航空公司、中华航空公司、汽车行业如福特(Ford)汽车公司;政府机关如国税局等。


项目:WEKA——数据挖掘分析与应用

时间:2015年8月8-9日  15-16日 (周末班)

地点:全国远程直播

费用:2800元/2200(全日制学生优惠)



  

大数据时代(The Era of Big Data)

  

1.大数据的起源

  

2.大数据与智能手机、感知装置、物联网、社群媒体及云计算的关系

  

3.大数据应用的成功案例

  

4.大数据的未来趋势

  

5.大数据时代的思维变革

  

6.社群大数据的应用

  

7.移动大数据的应用

  

8.文本数据下的舆情分析

  

9.大数据的迷思(大数据还是大错误)



数据挖掘基础(Basic Concept)



1.大数据的核心关键技术-数据挖掘

  

2.数据挖掘的发展历程、进行步骤、及产业标准(CRISP DM vs. SEMMA)

  

3.基本数据挖掘技术简介(查询工具、统计技术、可视化技术、K-最近邻技术、…)

  

4.进阶数据挖掘技术简介(分类、预测、关联规则、序列型样、聚类、…)

  

5.WEKA简介及操作接口(Explore, Experimenter, Knowledge  Flow,

  

Command  Line)说明

  

6.数据挖掘的绩效评估及顾客数优化

  

7.问题导向式数据挖掘分析流程

  

8.大数据如何取得?如何开始进行企业的数据挖掘项目?

  

9.数据挖掘的未来趋势

  

  

疾病诊断案例、寿险推销案例



数据挖掘技术(Data Mining Techniques)及实务建模(Practical Models)



1.数据前处理(Data Preprocessing)

  

*字段的选择:多重数据源的整合、建立区隔化模型

  

*数据的清洗:数据质量报告(Data Quality Report)的制作、空值(Missing Value)、错误值(Wrong Value)及离群值(Outlier)的侦测及处理方式

  

*字段的扩充:外部数据的整并及内部数据的统整

  

*数据的编码:

  

(1)数据正规化(Data Normalization)技术

  

(2)数据一般化(Generalization)技术

  

(3)数据离散化(Data Discretization)技术

  

(4)数据连续性指派(Continuousness Arbitrary)技术

  

(5)记录精简(Record Reduction)技术

  

(6)域值精简(Value Reduction)技术

  

(7)字段精简(Attribute Reduction)技术

  

*如何将原始数据依母体目标字段上的比例分成训练及测试数据集

  

*10-折交叉验证(10-Fold Cross Validation)



WEKA实作,案例实战



(1)  进件评分卡案例

  

(2)  药物治疗案例

  

(3)  鸢尾花案例

  

(4)  糖尿病预测案例

  

(5)  电离层雷达侦测案例



关键字段/变量发掘技术



*數值型关键变量发掘

  

*類別型关键变量发掘

  

*利用统计检定(Statistical Test)的方法发掘关键变量

  

*利用机器学习(Machine Learning)方法发掘关键变量

  

*变量共线性(Collinear)问题

  

  

(1)银行信用风险评估之进件评分卡(Application Scorecard)案例

  

(2)玻璃制品分类案例



分类技术(Classification Techniques) – 贝氏网络 (Bayes Net)



*简单贝氏网络(Naive Bayes)原理

  

*机率为0的处理方式

  

*空值(Missing Value)的处理

  

*数值型字段的处理

  

*以ZeroR建立基本比较模型1(Baseline  Model 1)

  

*以OneR建立基本比较模型2(Baseline  Model 2)

  

*分類模型效能的評估方式(Gain Chart, Lift Chart, Profit  Chart, Confusion Matrix, Precision, Recall, F-Measure, …)

  

  

(1)糖尿病预测案例

  

(2)天气预测案例



预测技术(Prediction Techniques) – 线性回归 (Linear Regression)



*简单线性回归(Simple Linear Regression)原理

  

*复回归(Multiple Linear Regression)原理

  

*皮尔森相关系数(Pearson Correlation Coefficient)

  

*预测模型效能的评估方式(Scatter Plot, Mean Absolute  Error, Mean Squared Error, R2, …)

  

  

(1)汽车油耗预测案例

  

(2)CPU效能预测案例



分类及预测技术 (Classification & Prediction  Techniques) – 决策树 (Decision Tree)



*分类树(Classification Tree)原理(ID3, C4.5, C5.0, CART, CHAID, …)

  

*分类字段的选择方法(Information Gain, Gain Ratio, Gini  Index, Chi-Square, …)

  

*分类树与分类规则(Classification Rules)之差异

  

*数值型字段的处理

  

*空值(Missing Value)的处理

  

*分类的修剪(Tree Pruning):避免Overfitting的问题

  

*回归树(Regression Tree)原理(CART, …)

  

*回归树进阶:Model Tree (M5)

  

  

(1)电信产品跨销售(Cross-Selling)案例

  

(2)影像(Image)数据分类案例

  

(3)乳腺癌(Breast Cancer)预测案例



分类及预测技术 (Classification & Prediction  Techniques) – 类神经网络 (Neural Network)



  

*倒传递类神经网络(Backpropagation Neural Network)原理

  

*数值型字段的一般化(Generalization)处理

  

*类别型字段的摊平(Flattening)处理

  

*倒传递类神经网络的权重调整

  

*倒传递类神经网络与罗吉斯回归, 线性回归,  非线性回归间的关系

  

*倒传递类神经网络如何处理分类的问题

  

*倒传递类神经网络如何处理预测的问题

  

  

(1)可视化工具(Boundary Visualizer)实作

  

(2)便利超商(Convenience_Store)选点案例

  

(3)房价(Home Price)预测案例



分类技术 (Classification Techniques) – 罗吉斯回归 (Logistic Regression)及支持向量机 (Support  Vector Machine)



*罗吉斯回归(Logistic Regression)原理

  

*数值型字段的一般化(Generalization)处理

  

*类别型字段的摊平(Flattening)处理

  

*罗吉斯回归的权重调整

  

*罗吉斯回归的字段选择方式(Forward, Backward, Stepwise, …)

  

*支持向量机(Support Vector Machine)原理

  

*支持向量机与类神经网络, 罗吉斯回归, 线性回归, 非线性回归间的关系

  

  

(1)糖尿病预测案例

  

(2)电信客户流失案例



聚类技术(Clustering Techniques) – K-Means, Kohonen SOM, Two-Step



*聚类原理

  

*距离的计算方法:Simple Matching Coefficient, Jaccard  Coefficient, City Block Distance, Euclidean Distance

  

*聚类方法的分类:Exclusive Clustering &  Non-Exclusive (Overlapping) Clustering

  

*Exclusive  Clustering方法的分类:Hierarchical  Methods & Partitioning Methods

  

*Partitioning  Methods原理:K-Means,  Kohonen SOM, Two-Step

  

  

(1)银行客户聚类(Customer Segmentation)及营销活动设计案例

  

(2)鸢尾花案例



关联规则及序列型样技术(Association Rules &  Sequential Patterns Techniques) – Apriori &  AprioriAll



*关联规则及序列型样原理

  

*支持度(Support)及信赖度(Confidence)的计算方式

  

*关联规则方法:Apriori原理

  

*产品相关性分析

  

*虚拟产品(Virtual Items)于关联规则上的应用

  

*大数据下的关联规则挖掘

  

*序列型样方法:AprioriAll原理

  

  

(1)  零售购物篮分析案例

  

(2)  零售向上销售(Up-Selling)案例



WEKA处理大数据及与其他系统的链接



*WEKA能接受的数据量测试

  

*大数据处理的数个解决

  

*WEKA的大数据解决方案

  

*那些算法可以处理大数据

  

*Weka与其他系统的链接方式

  

  

(1)LED分析案例(5亿笔数据、5GB大小)

  

(2)Java实作与Weka的链接



【报名优惠】
(1)论坛的统计软件课程往期的现场班学员,9折优惠;
(2)同一单位3人以上报名,9折优惠;
(3)以上(1)(2)优惠不累计;
(4)课后赠送论坛币1000个(玩转论坛必备) 现在就报名!



【报名流程】
1. 网上提交报名信息;
2. 在线缴费:http://baoming.pinggu.org/paycenter.aspx
3. 给予反馈,确认报名信息;
4.开课前一周发送上课资料与软件;


【报名咨询】
电话: (010)68456523   
QQ:28819897122881989712           2665954139
手机:13718534278(张老师)
         18010116775 (曹老师)   
邮箱:zhangwei@pinggu.org
          tr.service@pinggu.org





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘技术 数据挖掘 WEKA Partitioning Segmentation 财富管理 保险业 关键字 电信业 银行业

本帖被以下文库推荐




CDA数据分析交流群 217748971
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 19:06