培训时间:北京:2018年6月11-29日(赠送统计学课程视频)
上海:2018年6月9-25日(赠送统计学课程视频)
深圳:
培训费用:现场:7500元;
远程:6000元。
培训地点:上海市闵行区虹桥镇古北路1838号创新园区3号楼4层
北京市海淀区厂洼街3号丹龙大厦B座三楼
深圳市南山区科技园北区科技北一路17号摩比大厦312室
学习方式:现场学习+同步现场直播学习+现场(在线)答疑 +录播学习
课程时间:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00
(现场班)
(直播班)
CDA讲师团介绍
CDA数据分析讲师MichaelLiu老师
中国精算师,北美准精算师,金融数据分析师,中级经济师,研究生毕业于中央财经大学,拥有期货、证券、银行类资格证书以及广泛的金融保险行业从业经验,同经管之家相识多年,擅长于数据分析,有长期的SAS、SPSS、EXCEL实战经验和授课经历,为人和善,始终相信能帮助和影响他人变得更好才是人生的意义所在。
CDA数据分析讲师熊巍老师
统计学专业博士,加州大学伯克利分校统计学院高级访问学者,对外经济贸易大学大数据与风险管理中心成员、中国人民大学应用统计研究中心成员、具有丰富的统计学及数学教学经验,人大经济论坛讲师,研究方向为数据挖掘、机器学习、稳健高维降维、应用统计模型等,在国外SCI及国内核心外期刊上发表论文二十余篇并参与完成多项著作。
目前致力于大数据、超高维数据在交叉学科的前沿领域研究,主持并参与了包括国家自然科学基金项目在内的多项国家级课题及北京市自然科学基金、社会哲学规划项目等重大省部级课题,其中在研的有自己主持的教育部人文科学项目“基因与环境的交互效应对复杂疾病的影响及稳健地识别分析与应用”、以及参与的“大数据的统计学基础理论与分析技术创新研究”、“大数据下Leverage重要性抽样的稳健改进”等大数据项目。在学校承担多项课程,精通各种软件,正在编写《实用数据挖掘讲义》及《商务应用统计案例》。
CDA数据分析讲师王小川老师
同济大学管理学博士,现就职于国内某大型券商研究所,从事量化投资相关工作,并承担了部分高校统计课程教学任务。长期研究机器学习在统计学中的应用,精通MATLAB、Python、SAS等统计软件,热衷数据分析和数据挖掘工作,有着扎实的理论基础和丰富的实战经验。神经网络、数据挖掘、统计分析应用领域专家,国内最大的MATLAB论坛管理员,在硕士与博士期间,参与发表了SCI论文6篇,核心期刊论文5篇,获得同济大学奖学金,著有《MATLAB神经网络30个案例分析》一书。
CDA数据分析讲师唐宇迪老师
计算机博士,专注于机器学习与计算机视觉领域,深度学习领域一线实战专家。参与多个国家级计算机视觉项目,多年数据领域培训经验,丰富的教学讲解经验,出品多套机器学习与深度学习系列课程,课程生动形象,风格通俗易懂。
CDA数据分析讲师曹正凤老师
经管之家(原人大经济论坛)大数据培训中心负责人,统计学专业博士,北京大数据协会理事,首发集团智慧交通大数据中心筹备组负责人,研究方向为数据挖掘领域的前沿算法研究,包括随机森林算法、神经网络等内容,发表多篇论文。
课程大纲
【第一部分】统计 | |||
统计基础 | 第一节 | 描述性统计 | 集中趋势 离散测度 |
第二节 | 统计量及其抽样分布 | 统计量 分布 样本均值的分布与中心极限定理 样本比例的抽样分布 两个样本均值之差的抽样分布 关于样本方差的分布 | |
第三节 | 参数估计 | 参数估计 一个总体参数的区间估计 两个总体参数的区间估计 估计量的求法 样本量的确定 | |
第四节 | 假设检验 | 假设检验、个样本t检验 配对样本的t检验、两独立样本t检验 | |
第五节 | 分类数据分析 | 分类数据与卡方统计量 拟合优度检验 列联分析、独立性检验 列联分析相关测量 线性回归 | |
第六节 | 矩阵运算 | 行列式 矩阵及其运算 矩阵的初等变换与线性方程组 向量组的线性相关性 相似矩阵 线性空间与线性变化 | |
【第二部分】数据分析前沿技术—机器学习 | |||
Python基础 | 第一节 | Python的安装以及环境配置 | |
第二节 | Python语言特点 | ||
第三节 | Python的数据类型和变量 | ||
第四节 | Python中的运算 | ||
第五节 | Python的数据结构 | ||
第六节 | Python的控制流语句 | ||
第七节 | Python中的异常处理和调 | ||
第八节 | Python函数调用和定义以及函数的参数 | ||
第九节 | Python的类和面向对象编程、 | ||
第十节 | Python的文件、模块操作 | ||
Python数据清洗 | 第一节 | Numpy基础 | Numpy的ndarray 数组的索引和切片 数组的运算 常用的数组方法 |
第二节 | Pandas基础应用 | Series数据结构 DataFrame数据结构 基本功能 汇总和计算统计描述 缺失值的处理 | |
第三节 | Pandas数据规整 | 数据加载&输出 数据集的合并 数据集的重塑 数据重构 | |
第四节 | Pandas分组运算 | GroupBy技术 数据聚合 分组级运算和转换 透视表和交叉表 | |
Python爬虫 | 网络协议的简单介绍 | ||
网页数据结构介绍 | |||
使用BeautifulSoup4库解析网页 | |||
使用Selenium获取动态网页数据 | |||
Python机器学习 | 第一节 | Python实现线性判别分析 | 实现线性判别分析进行降维任务 求解得出降维结果 |
第二节 | PCA主成分分析 | PCA降维概述 PCA要优化的目标 PCA求解 PCA降维实例 | |
第三节 | EM算法 | EM算法要解决的问题 隐变量问题 EM算法求解实例 Jensen不等式 | |
第四节 | GMM聚类实践 | GMM实例解读 GMM聚类停止策略与梯度下降案例 | |
第五节 | 推荐系统 | 推荐系统应用 推荐系统要完成的任务 相似度计算 基于用户的协调过滤 基于物品的协同过滤 隐语义模型 隐语义模型求解 模型评估标准 | |
第六节 | 推荐系统实战 | Surprise库与数据简介 Surprise库使用方法 得出推荐商品结果 | |
第七节 | 线性支持向量机 | 支持向量机要解决的问题 距离与数据定义 目标函数 目标函数求解 SVM求解实例 支持向量的作用 | |
第八节 | SVM实践 | sklearn求解支持向量机 SVM参数选择 软间隔问题 SVM核变换 | |
第九节 | 时间序列ARIMA模型 | 数据平稳性与差分法 ARIMA模型知识 相关函数评估方法 建立ARIMA模型 参数选择 | |
第十节 | 时间序列预测任务 | Pandas生成时间序列 Pandas数据重采样 Pandas滑动窗口 股票预测案例 使用tsfresh库进行分类任务 维基百科词条EDA | |
第十一节 | Xgboost提升算法和调参实例 | Xgboost算法概述 Xgboost模型构造 Xgboost建模衡量标准 Xgboost安装基础 保险赔偿任务概述 Xgboost参数定义 基础模型定义 树结构对结果的影响 学习率余采样对结果的影响 | |
第十二节 | 机器学习套路与Benchmark | HTTP检测任务与数据挖掘的核心 论文的重要程度 Benchmark概述 Benchmark的作用 | |
第十三节 | 探索性数据分析-赛事数据集分析 | 数据背景介绍 数据读取与预处理 数据切分模块 缺失值可视化分析 特征可视化展示 多特征之间关系分析 报表可视化分析 红牌和肤色的关系 | |
第十四节 | 探索性数据分析-农粮数据分析 | 数据背景介绍 数据切分模块 单变量分析 峰度与偏度 数据对数变换 数据分析维度 变量关系可视化展示 | |
第十五节 | 泰坦尼克号获救预测 | 数据挖掘任务流程 数据介绍 Python兵器库介绍 sklearn库介绍 数据读取与统计分析 性别特征分析 船舱等级特征分析 缺失值问题 年龄特征缺失值填充与分析 登船地点特征分析 家庭特征分析 特征相关性 构建特征 机器学习算法概述 交叉验证 多种机器学习算法模型效果 集成模块 特征重要性衡量 总结与特征预处理 | |
第十六节 | 用户画像 | 用户画像概述 如何建立用户画像 用户搜索数据介绍 任务概述与方案 构造词向量特征 构造输入特征 建立预测模型 | |
第十七节 | Kaggle数据科学 | Kaggle数据科学调查介绍 基本情况可视化展示 工资情况 技能使用情况 数据集与平台 Python和R语言比较 调查总结 | |
第十八节 | 京东购买预测 | 项目与数据介绍 数据挖掘流程 数据检查 构建用户特征表单 构建商品特征表单 数据探索概述 购买因素分析 特征工程 基本特征构造 行为特征 累积行为特征 | |
第十九节 | 房价预测 | 房价预测任务概述 离散形数据 数据对数变换 缺失值处理与box-cox变换 模型预测 |
课程简介
1、本课程从最基础的统计理论(描述性统计、区间估计、假设检验等),到基本的统计分析(T检验、方差分析等),最后到商业常用的模型(回归、因子分析、时间序列)。以深入浅出的方法,带大家逐步了解统计。
2、Python基础主要是带大家了解Python的基础语言部分,熟悉基础的Python语法,python运算符与表达式,控制流语句,python函数,python模块,异常处理等。
3、Pandas是08年开发的一个python库,近几年的更新逐渐成为数据分析举足轻重的模块,python数据清洗中,我们将着重讲解pandas在数据清洗的功能和作用。
4、通过爬虫、可视化、机器学习、推荐系统和几个商业经典的案例来学习python强大的功能。
课程重点
1、集中趋势的度量、离散程度的度量、偏态与峰态的度量、统计量的概念、几个分布的概念、正态分布导出的几个概念(卡方分布、t分布、F分布)、样本均值的分布与中心极限定理、样本比例的抽样分布、两个样本均值之差的抽样分布、样本方差的分布、参数估计的一般问题(最大似然估计)、一个总体参数的区间估计、两个总体参数的区间估计、样本量的确定、假设检验(2类错误)、一个总体参数的检验、两个总体参数的检验、分类数据分析
2、编辑器和互交式命令行的概念,IDE(集成开发环境)的概念, 熟悉各个不同的开发环境.
3、Python的语言特点, 输入和输出,常见的基础的数据类型以及变量的概念
4、Python中的基础数据结构,控制流语句,Python中的函数,异常处理
5、类和面对对象的概念,IO操作,Python中常用的内置函数和高级特性
6、正则表达式,Python连接数据库
7、Numpy的ndarray,数组的索引和切片,数组的运算,常用的数组方法
8、Series数据结构,DataFrame数据结构,数据加载&输出
9、DataFrame常用方法,汇总和计算统计描述,缺失值的处理
10、数据集的合并,数据集的重塑,数据重构
11、GroupBy技术,数据聚合,分组级运算和转换,透视表和交叉表
12、使用BeautifulSoup4库解析网页,静态网页抓取练习
13、使用selenium获取动态网页的数据,熟练掌握不同的数据保存方式,熟练掌握完整的爬虫的结构,logging, time模块的基础了解
14、基于内容的推荐,关联规则
15、基于用户的协同过滤讲解与实现,基于物品的协同过滤的讲解与实现
课程目标
1、统计理论中了解一些常用的统计术语,能运用数据分析常用的一些统计方法(相关分析,列联分析,主成分分析,因子分析等)
2、Anaconda安装配置完毕, 能够进行预习和复习的代码管理以及相关的操作.
3、熟悉Python的语言特点(语句块, 输入输出), 尝试去理解编程的思想.
4、熟悉基本的数据类型, 以及各个数据类型的常用的方法.
5、理解变量的概念.
6、能够熟练使用Python的运算符, 知道运算的优先级, 能够注意到代码的规范性.
7、熟练掌握四个基础的数据结构, 了解他们的特点, 并知道在哪些场景下去使用.
8、熟练掌握各个控制流语句, 了解各个语句的特点, 并清楚的知道面对问题怎么去选择使用哪个语句.
9、能够查找常见的代码报错问题所在, 并且可以进行修复(语法错误, 缩进不对, 冒号丢失等等).
10、熟悉Python中的函数, 理解形参和实参, 理解变量的命名空间.
11、能够知道异常的概念, 并知道如何处理程序中的异常.
12、了解面对对象的概念, 能够使用简单的类,能够理解类相关的代码.
13、了解简单的IO操作, 并了解编码相关的常见错误.
14、熟悉Python中的常用内置函数和高级特性.
15、理解正则表达式, 并能够掌握基本的用法.
16、能够使用Python对数据库进行操作,熟悉增删改查.
17、能够解决一些较为复杂的编程的问题.
18、熟悉编程的解决问题的思路, 掌握遇到编程问题或者报错时的提问技巧, 并能够自行处理简单的程序错误.
19、理解数组的数据结构
20、掌握N维数组的索引和切片的方法
21、熟悉Series数据结构
22、熟悉DataFrame数据结构
23、掌握常见的各类数据加载方式
24、掌握常用的DataFrame的方法
25、能够使用Pandas进行汇总和计算统计描述等
26、能够处理各种形式的缺失值
27、熟悉不同数据集的合并重塑和重构
28、强化练习数据清洗分析的流程熟悉度
29、综合训练Pandas的使用能力
30、掌握基本的网络协议的概念
31、熟悉网页的数据结构
32、掌握BeautifulSoup4库常用的相关内容
33、熟练掌握如何在静态网页中定位抓取
34、掌握动态网页的数据获取
35、了解爬虫的整体架构
36、学会监控爬虫的运行
37、能够快速开发小型的爬虫
38、了解各种不同的相似度计算方式
39、掌握关联规则的应用
40、掌握协同过滤的概念
41、理解两种协同过滤的异同点和优劣
42、能够自己通过Python重现协同过滤算法
报名福利(优惠)
1、现场班老学员可以享受9折优惠;
2、同一机构3人以上报名,9折优惠;
3、同一机构6人以上报名,8折优惠;
4、提前一个月报名优惠500元,可以贷款
5、参加此课程后,可以补差价参加就业班
6、赠送本课程视频;
7、专业老师在线答疑;
8、精致课程练习题供学员课后操作更易于学员理解与掌握所受知识,提高实战能力;
9、报名成功后发送老师课程讲义供学员提前预习;
10、免费参加CDA数据分析研究院俱乐部活动。
11、赠送经管之家(原人大经济论坛)论坛币1000
(前三项优惠不叠加)
报名流程
1:点击“立即报名”,网上填写信息提交;
2:给予反馈,确认报名信息;
3:网上订单缴费;
4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南。
咨询方式
龚加勇
电话:010-53605625
手机:17773656856
Q Q: 1281241407
邮 箱:gongjiayong@pinggu.org