人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › WEKA_数据挖掘技术与应用_名师主讲_全国网络直播

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: ZQZ520

3450 0

[学科前沿] WEKA_数据挖掘技术与应用_名师主讲_全国网络直播 [推广有奖]

2关注
49粉丝

院士

17%

还不是VIP/贵宾

威望: 4 级
论坛币: -1176554 个
通用积分: 6481.7282
学术水平: 99 点
热心指数: 203 点
信用等级: 94 点
经验: 31703 点
帖子: 655
精华: 7
在线时间: 2457 小时
注册时间: 2014-5-7
最后登录: 2021-8-4

楼主

ZQZ520

发表于 2015-2-1 12:03:29 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

在现今大数据的时代，各行各业都迫切地想要利用大数据来解决它们的问题。银行业想知道哪些顾客会有信用风险；哪些客户会对财富管理有兴趣。保险业想知道哪些理赔会有诈欺的行为；哪些客户会对投资型保单有兴趣，电信业想知道哪些客户会流失。针对大数据分析上的应用与案例，以及进入大数据后分析方式的转变，运用Open Source-WEKA, 做广泛且深入的探讨，从认识到有一定的程度及水平。WEKA在分类的问题上，提供超过100种的算法；在数据前处理上，提供超过75种的算法；在关键字段的选择上，提供超过25种的算法；在聚类及关联规则的问题上，则提供超过20种的算法。

李御玺(Yue-Shi Lee),国立台湾大学计算机工程博士，铭传大学计算机工程学系教授，铭传大学大数据研究中心主任，中华资料采矿协会理事, 浙江大学城市学院客座教授，云南财经大学信息学院客座教授, 厦门大学数据挖掘中心顾问，中国人民大学数据挖掘中心顾问。其研究领域专注于大数据、数据挖掘、与文本挖掘。

李博士在其相关研究领域已发表超过280篇以上的研究论文,同时也是台湾科技部与教育部多个相关研究计划的主持人。服务过的客户包括：中国工商局、中信银行、台新银行、联邦银行、新光银行、新竹国际商业银行(现已并入渣打银行)、第一银行、永丰银行、远东银行、美商大都会人寿、嘉义基督教医院、台湾微软、零售业如赫莲娜(Helena Rubinstein)化妆品公司、特立和乐(HOLA)公司、航空公司如东方航空公司、中华航空公司、汽车行业如福特(Ford)汽车公司；政府机关如国税局等。

项目：WEKA——数据挖掘分析与应用

时间：2015年8月8-9日 15-16日 (周末班)

地点：全国远程直播

费用：2800元/2200（全日制学生优惠）

大数据时代(The Era of Big Data)	1.大数据的起源 2.大数据与智能手机、感知装置、物联网、社群媒体及云计算的关系 3.大数据应用的成功案例 4.大数据的未来趋势 5.大数据时代的思维变革 6.社群大数据的应用 7.移动大数据的应用 8.文本数据下的舆情分析 9.大数据的迷思(大数据还是大错误)
数据挖掘基础(Basic Concept)	1.大数据的核心关键技术-数据挖掘 2.数据挖掘的发展历程、进行步骤、及产业标准(CRISP DM vs. SEMMA) 3.基本数据挖掘技术简介(查询工具、统计技术、可视化技术、K-最近邻技术、…) 4.进阶数据挖掘技术简介(分类、预测、关联规则、序列型样、聚类、…) 5.WEKA简介及操作接口(Explore, Experimenter, Knowledge Flow, Command Line)说明 6.数据挖掘的绩效评估及顾客数优化 7.问题导向式数据挖掘分析流程 8.大数据如何取得？如何开始进行企业的数据挖掘项目？ 9.数据挖掘的未来趋势疾病诊断案例、寿险推销案例
数据挖掘技术(Data Mining Techniques)及实务建模(Practical Models)	1.数据前处理(Data Preprocessing) 字段的选择：多重数据源的整合、建立区隔化模型数据的清洗：数据质量报告(Data Quality Report)的制作、空值(Missing Value)、错误值(Wrong Value)及离群值(Outlier)的侦测及处理方式字段的扩充：外部数据的整并及内部数据的统整数据的编码： (1)数据正规化(Data Normalization)技术 (2)数据一般化(Generalization)技术 (3)数据离散化(Data Discretization)技术 (4)数据连续性指派(Continuousness Arbitrary)技术 (5)记录精简(Record Reduction)技术 (6)域值精简(Value Reduction)技术 (7)字段精简(Attribute Reduction)技术如何将原始数据依母体目标字段上的比例分成训练及测试数据集 10-折交叉验证(10-Fold Cross Validation)
WEKA实作，案例实战	(1) 进件评分卡案例 (2) 药物治疗案例 (3) 鸢尾花案例 (4) 糖尿病预测案例 (5) 电离层雷达侦测案例
关键字段/变量发掘技术	數值型关键变量发掘類別型关键变量发掘利用统计检定(Statistical Test)的方法发掘关键变量利用机器学习(Machine Learning)方法发掘关键变量 *变量共线性(Collinear)问题 (1)银行信用风险评估之进件评分卡(Application Scorecard)案例 (2)玻璃制品分类案例
分类技术(Classification Techniques) – 贝氏网络 (Bayes Net)	简单贝氏网络(Naive Bayes)原理机率为0的处理方式空值(Missing Value)的处理数值型字段的处理以ZeroR建立基本比较模型1(Baseline Model 1) 以OneR建立基本比较模型2(Baseline Model 2) *分類模型效能的評估方式(Gain Chart, Lift Chart, Profit Chart, Confusion Matrix, Precision, Recall, F-Measure, …) (1)糖尿病预测案例 (2)天气预测案例
预测技术(Prediction Techniques) – 线性回归 (Linear Regression)	简单线性回归(Simple Linear Regression)原理复回归(Multiple Linear Regression)原理皮尔森相关系数(Pearson Correlation Coefficient) 预测模型效能的评估方式(Scatter Plot, Mean Absolute Error, Mean Squared Error, R2, …) (1)汽车油耗预测案例 (2)CPU效能预测案例
分类及预测技术 (Classification & Prediction Techniques) – 决策树 (Decision Tree)	分类树(Classification Tree)原理(ID3, C4.5, C5.0, CART, CHAID, …) 分类字段的选择方法(Information Gain, Gain Ratio, Gini Index, Chi-Square, …) 分类树与分类规则(Classification Rules)之差异数值型字段的处理空值(Missing Value)的处理分类的修剪(Tree Pruning)：避免Overfitting的问题回归树(Regression Tree)原理(CART, …) 回归树进阶：Model Tree (M5) (1)电信产品跨销售(Cross-Selling)案例 (2)影像(Image)数据分类案例 (3)乳腺癌(Breast Cancer)预测案例
分类及预测技术 (Classification & Prediction Techniques) – 类神经网络 (Neural Network)	倒传递类神经网络(Backpropagation Neural Network)原理数值型字段的一般化(Generalization)处理类别型字段的摊平(Flattening)处理倒传递类神经网络的权重调整倒传递类神经网络与罗吉斯回归, 线性回归, 非线性回归间的关系倒传递类神经网络如何处理分类的问题 *倒传递类神经网络如何处理预测的问题 (1)可视化工具(Boundary Visualizer)实作 (2)便利超商(Convenience_Store)选点案例 (3)房价(Home Price)预测案例
分类技术 (Classification Techniques) – 罗吉斯回归 (Logistic Regression)及支持向量机 (Support Vector Machine)	罗吉斯回归(Logistic Regression)原理数值型字段的一般化(Generalization)处理类别型字段的摊平(Flattening)处理罗吉斯回归的权重调整罗吉斯回归的字段选择方式(Forward, Backward, Stepwise, …) 支持向量机(Support Vector Machine)原理 *支持向量机与类神经网络, 罗吉斯回归, 线性回归, 非线性回归间的关系 (1)糖尿病预测案例 (2)电信客户流失案例
聚类技术(Clustering Techniques) – K-Means, Kohonen SOM, Two-Step	聚类原理距离的计算方法：Simple Matching Coefficient, Jaccard Coefficient, City Block Distance, Euclidean Distance 聚类方法的分类：Exclusive Clustering & Non-Exclusive (Overlapping) Clustering Exclusive Clustering方法的分类：Hierarchical Methods & Partitioning Methods *Partitioning Methods原理：K-Means, Kohonen SOM, Two-Step (1)银行客户聚类(Customer Segmentation)及营销活动设计案例 (2)鸢尾花案例
关联规则及序列型样技术(Association Rules & Sequential Patterns Techniques) – Apriori & AprioriAll	关联规则及序列型样原理支持度(Support)及信赖度(Confidence)的计算方式关联规则方法：Apriori原理产品相关性分析虚拟产品(Virtual Items)于关联规则上的应用大数据下的关联规则挖掘 *序列型样方法：AprioriAll原理 (1) 零售购物篮分析案例 (2) 零售向上销售(Up-Selling)案例
WEKA处理大数据及与其他系统的链接	WEKA能接受的数据量测试大数据处理的数个解决 WEKA的大数据解决方案那些算法可以处理大数据 *Weka与其他系统的链接方式 (1)LED分析案例(5亿笔数据、5GB大小) (2)Java实作与Weka的链接

【报名优惠】
（1）论坛的统计软件课程往期的现场班学员，9折优惠；
（2）同一单位3人以上报名，9折优惠；
（3）以上（1）（2）优惠不累计；
（4）课后赠送论坛币1000个（玩转论坛必备）现在就报名！

【报名流程】
1. 网上提交报名信息；
2. 在线缴费：http://baoming.pinggu.org/paycenter.aspx
3. 给予反馈，确认报名信息；
4.开课前一周发送上课资料与软件；

【报名咨询】
电话: (010)68456523
QQ：2881989712

          2665954139
手机：13718534278（张老师）
      18010116775 （曹老师）
邮箱：zhangwei@pinggu.org
      tr.service@pinggu.org

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据挖掘技术数据挖掘 WEKA Partitioning Segmentation 财富管理保险业关键字电信业银行业

本帖被以下文库推荐

· Must-Read Book|主题: 72, 订阅: 9

CDA数据分析交流群 217748971

使用道具举报

返回列表

发帖

本版微信群

加好友,备注jltj
拉您入交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明