昨日阅读4小时,总计49.5小时
《大数据基础及应用》-吕云翔-钟巧灵等编著--清华Press-2017-3
数据仓库与分析
从产品实现层面讲,数据仓库倾向于使用列式存储,如SAP IQ、SAP HANA、IBM、Oracle、Sybase、CA、NCR、MS、SAS都有数据仓库解决方案。BO和Brio专业的软件公司在前端OLAP也很厉害。
分布式数据仓库Hive
用户接口(CLI、Client、WUI)
元数据存储
解释器、编译器和优化器
Hadoop
数据仓库之SQL分析
阿里云MaxCompute数据仓库案例
ch13 数据挖掘与机器学习技术
机器学习:从数据中自动习得模型,并使用习得的模型对未知数据进行预测。任务是:从数据中学习决策函数。
(包括监督学习、非监督学习、半监督学习、强化学习)
一般采用损失函数(Lost Function)来度量预测的错误程度
有四种损失函数:
0-1损失函数;平方损失函数、绝对损失函数、对数损失函数
关联分析
分类与回归
回归分析(Regression analysis):是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,其应用十分广泛。分一元回归和多元回归分析。
聚类分析(cluster analysis):是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
区别于分类分析(classification analysis),后者是监督学习,聚类分析是无监督学习。
聚类方法的分类:层次聚类(合并法、分解法、树状法)、非层次聚类K-means(划分聚类、谱聚类)
聚类算法的分类:划分方法(PArtitioning Method, PAM)、层次方法(hierarchical method)、基于密度的方法、基于网格的方法、基于模型的方法。
离群点检测(在样本空间中与其他样本点的一般行为或特征不一致的点称为离群点)
检测方法:基于统计分布的离群点检测、基于距离的离群点检测、基于密度的局部离群点检测、基于偏差的离群点检测)
复杂数据类型的挖掘:复杂对象、空间数据、多媒体数据、时间序列数据、文本数据和Web数据
应用实践:广告点击率预测、并行随机梯度下降、自然语言处理(文档相似性检测与计算)、阿里云PAI(人工智能平台)
深度学习:DistBelief、TensorFlow(2015年Google发布的)
ch14 大数据实践:基于阿里云数加平台的推荐系统
tianchi.shuju.aliyun.com的天池新人实战赛之平台赛上,找到该数据集
包括100万用户的完整行为数据以及百万级的商品信息。
--------The End of 《大数据基础及应用》-吕云翔-钟巧灵等编著--清华Press-2017-3

