在现今大数据的时代,各行各业都迫切地想要利用大数据来解决它们的问题。银行业想知道哪些顾客会有信用风险;哪些客户会对财富管理有兴趣。保险业想知道哪些理赔会有诈欺的行为;哪些客户会对投资型保单有兴趣,电信业想知道哪些客户会流失。针对大数据分析上的应用与案例,以及进入大数据后分析方式的转变,运用Open Source-WEKA, 做广泛且深入的探讨,从认识到有一定的程度及水平。WEKA在分类的问题上,提供超过100种的算法;在数据前处理上,提供超过75种的算法;在关键字段的选择上,提供超过25种的算法;在聚类及关联规则的问题上,则提供超过20种的算法。
李御玺(Yue-Shi Lee),国立台湾大学计算机工程博士,铭传大学计算机工程学系教授,铭传大学大数据研究中心主任,中华资料采矿协会理事, 浙江大学城市学院客座教授,云南财经大学信息学院客座教授, 厦门大学数据挖掘中心顾问,中国人民大学数据挖掘中心顾问。其研究领域专注于大数据、数据挖掘、与文本挖掘。
李博士在其相关研究领域已发表超过280篇以上的研究论文,同时也是台湾科技部与教育部多个相关研究计划的主持人。服务过的客户包括:中国工商局、中信银行、台新银行、联邦银行、新光银行、新竹国际商业银行(现已并入渣打银行)、第一银行、永丰银行、远东银行、美商大都会人寿、嘉义基督教医院、台湾微软、零售业如赫莲娜(Helena Rubinstein)化妆品公司、特立和乐(HOLA)公司、航空公司如东方航空公司、中华航空公司、汽车行业如福特(Ford)汽车公司;政府机关如国税局等。
项目:WEKA——数据挖掘分析与应用
时间:2015年8月8-9日 15-16日 (周末班)
地点:全国远程直播
费用:2800元/2200(全日制学生优惠)
大数据时代(The Era of Big Data) | 1.大数据的起源 2.大数据与智能手机、感知装置、物联网、社群媒体及云计算的关系 3.大数据应用的成功案例 4.大数据的未来趋势 5.大数据时代的思维变革 6.社群大数据的应用 7.移动大数据的应用 8.文本数据下的舆情分析 9.大数据的迷思(大数据还是大错误) |
数据挖掘基础(Basic Concept) | 1.大数据的核心关键技术-数据挖掘 2.数据挖掘的发展历程、进行步骤、及产业标准(CRISP DM vs. SEMMA) 3.基本数据挖掘技术简介(查询工具、统计技术、可视化技术、K-最近邻技术、…) 4.进阶数据挖掘技术简介(分类、预测、关联规则、序列型样、聚类、…) 5.WEKA简介及操作接口(Explore, Experimenter, Knowledge Flow, Command Line)说明 6.数据挖掘的绩效评估及顾客数优化 7.问题导向式数据挖掘分析流程 8.大数据如何取得?如何开始进行企业的数据挖掘项目? 9.数据挖掘的未来趋势
疾病诊断案例、寿险推销案例 |
数据挖掘技术(Data Mining Techniques)及实务建模(Practical Models) | 1.数据前处理(Data Preprocessing) *字段的选择:多重数据源的整合、建立区隔化模型 *数据的清洗:数据质量报告(Data Quality Report)的制作、空值(Missing Value)、错误值(Wrong Value)及离群值(Outlier)的侦测及处理方式 *字段的扩充:外部数据的整并及内部数据的统整 *数据的编码: (1)数据正规化(Data Normalization)技术 (2)数据一般化(Generalization)技术 (3)数据离散化(Data Discretization)技术 (4)数据连续性指派(Continuousness Arbitrary)技术 (5)记录精简(Record Reduction)技术 (6)域值精简(Value Reduction)技术 (7)字段精简(Attribute Reduction)技术 *如何将原始数据依母体目标字段上的比例分成训练及测试数据集 *10-折交叉验证(10-Fold Cross Validation) |
WEKA实作,案例实战 | (1) 进件评分卡案例 (2) 药物治疗案例 (3) 鸢尾花案例 (4) 糖尿病预测案例 (5) 电离层雷达侦测案例 |
关键字段/变量发掘技术 | *數值型关键变量发掘 *類別型关键变量发掘 *利用统计检定(Statistical Test)的方法发掘关键变量 *利用机器学习(Machine Learning)方法发掘关键变量 *变量共线性(Collinear)问题
(1)银行信用风险评估之进件评分卡(Application Scorecard)案例 (2)玻璃制品分类案例 |
分类技术(Classification Techniques) – 贝氏网络 (Bayes Net) | *简单贝氏网络(Naive Bayes)原理 *机率为0的处理方式 *空值(Missing Value)的处理 *数值型字段的处理 *以ZeroR建立基本比较模型1(Baseline Model 1) *以OneR建立基本比较模型2(Baseline Model 2) *分類模型效能的評估方式(Gain Chart, Lift Chart, Profit Chart, Confusion Matrix, Precision, Recall, F-Measure, …)
(1)糖尿病预测案例 (2)天气预测案例 |
预测技术(Prediction Techniques) – 线性回归 (Linear Regression) | *简单线性回归(Simple Linear Regression)原理 *复回归(Multiple Linear Regression)原理 *皮尔森相关系数(Pearson Correlation Coefficient) *预测模型效能的评估方式(Scatter Plot, Mean Absolute Error, Mean Squared Error, R2, …)
(1)汽车油耗预测案例 (2)CPU效能预测案例 |
分类及预测技术 (Classification & Prediction Techniques) – 决策树 (Decision Tree) | *分类树(Classification Tree)原理(ID3, C4.5, C5.0, CART, CHAID, …) *分类字段的选择方法(Information Gain, Gain Ratio, Gini Index, Chi-Square, …) *分类树与分类规则(Classification Rules)之差异 *数值型字段的处理 *空值(Missing Value)的处理 *分类的修剪(Tree Pruning):避免Overfitting的问题 *回归树(Regression Tree)原理(CART, …) *回归树进阶:Model Tree (M5)
(1)电信产品跨销售(Cross-Selling)案例 (2)影像(Image)数据分类案例 (3)乳腺癌(Breast Cancer)预测案例 |
分类及预测技术 (Classification & Prediction Techniques) – 类神经网络 (Neural Network) |
*倒传递类神经网络(Backpropagation Neural Network)原理 *数值型字段的一般化(Generalization)处理 *类别型字段的摊平(Flattening)处理 *倒传递类神经网络的权重调整 *倒传递类神经网络与罗吉斯回归, 线性回归, 非线性回归间的关系 *倒传递类神经网络如何处理分类的问题 *倒传递类神经网络如何处理预测的问题
(1)可视化工具(Boundary Visualizer)实作 (2)便利超商(Convenience_Store)选点案例 (3)房价(Home Price)预测案例 |
分类技术 (Classification Techniques) – 罗吉斯回归 (Logistic Regression)及支持向量机 (Support Vector Machine) | *罗吉斯回归(Logistic Regression)原理 *数值型字段的一般化(Generalization)处理 *类别型字段的摊平(Flattening)处理 *罗吉斯回归的权重调整 *罗吉斯回归的字段选择方式(Forward, Backward, Stepwise, …) *支持向量机(Support Vector Machine)原理 *支持向量机与类神经网络, 罗吉斯回归, 线性回归, 非线性回归间的关系
(1)糖尿病预测案例 (2)电信客户流失案例 |
聚类技术(Clustering Techniques) – K-Means, Kohonen SOM, Two-Step | *聚类原理 *距离的计算方法:Simple Matching Coefficient, Jaccard Coefficient, City Block Distance, Euclidean Distance *聚类方法的分类:Exclusive Clustering & Non-Exclusive (Overlapping) Clustering *Exclusive Clustering方法的分类:Hierarchical Methods & Partitioning Methods *Partitioning Methods原理:K-Means, Kohonen SOM, Two-Step
(1)银行客户聚类(Customer Segmentation)及营销活动设计案例 (2)鸢尾花案例 |
关联规则及序列型样技术(Association Rules & Sequential Patterns Techniques) – Apriori & AprioriAll | *关联规则及序列型样原理 *支持度(Support)及信赖度(Confidence)的计算方式 *关联规则方法:Apriori原理 *产品相关性分析 *虚拟产品(Virtual Items)于关联规则上的应用 *大数据下的关联规则挖掘 *序列型样方法:AprioriAll原理
(1) 零售购物篮分析案例 (2) 零售向上销售(Up-Selling)案例 |
WEKA处理大数据及与其他系统的链接 | *WEKA能接受的数据量测试 *大数据处理的数个解决 *WEKA的大数据解决方案 *那些算法可以处理大数据 *Weka与其他系统的链接方式
(1)LED分析案例(5亿笔数据、5GB大小) (2)Java实作与Weka的链接 |
【报名优惠】
(1)论坛的统计软件课程往期的现场班学员,9折优惠;
(2)同一单位3人以上报名,9折优惠;
(3)以上(1)(2)优惠不累计;
(4)课后赠送论坛币1000个(玩转论坛必备) 现在就报名!
【报名流程】
1. 网上提交报名信息;
2. 在线缴费:http://baoming.pinggu.org/paycenter.aspx
3. 给予反馈,确认报名信息;
4.开课前一周发送上课资料与软件;
【报名咨询】
电话: (010)68456523
QQ:2881989712 2665954139
手机:13718534278(张老师)
18010116775 (曹老师)
邮箱:zhangwei@pinggu.org
tr.service@pinggu.org