昨日阅读3小时,总计5.5小时
《大数据技术及应用教程》-李联宁编著 --清华Press 2016
大数据技术的基本概念:
传统数据处理: 采集、导入、预处理、统计和分析以及数据挖掘(典型算法:用于聚类的K-Means、用于统计学习的SVM、用于分类的Naive Bayes,主要使用的工具是Hadoop的Mahout等,以单线程为主)
大数据分析的方法理论:预测性分析能力(Predictive Analytic Capabilities)、数据质量和数据管理(Data Quality and Data Management)、可视化分析(Analytic Visualizations)、语义引擎(Semantic Engines)、数据挖掘算法(Data Mining Algorithms)
大数据技术分类:
基础架构:云计算平台、云存储、虚拟化技术、网络技术、资源监控技术
数据采集:数据总线、ETL工具
数据存储:分布式FS、关系型数据库、NoSQL技术、关系型数据库与非关系型数据库融合、内存数据库
数据计算:数据查询、统计与分析;数据预测与挖掘、图谱处理、BI商业智能
展现与交互:图形与报表、可视化工具、增强现实技术
云存储技术、数据抓取(感知)技术、数据可视化技术推动大数据分析平台的发展
三个重要技术组成:数据交易技术、数据交互技术、数据处理技术
微观对应数据存储、数据同步、数据开发、数据挖掘、数据计算
IaaS(云存储和虚拟化)、PaaS(分布式数据库HBase+数据立方,分布式处理MapReduce+JobKeeper)、SaaS(分布式数据挖掘,如Mahout)
大数据的社会价值
推动实现巨大经济效益、推动增强社会管理水平、高性能的分析工具使得大数据的价值得以释放
十大商业应用场景
1)智慧城市
2)金融行业(精准营销、风险管控、决策支持、效率提升、产品设计)
3)医疗行业
4)农牧业
5)零售行业
6)大数据技术产业
7)物流行业
8)房地产业
9)制造业
10)互联网广告业
ch3 数据采集与预处理
数据采集来源:管理信息系统、Web信息系统、物理信息系统(实时监控、检测、由嵌入式传感设备产生)、科学实验系统(物理实验系统中的一种特殊方式,可以是模拟仿真数据)
大数据采集新方法:系统日志采集方法、网络数据采集方法(对非结构化数据的采集)、其他方法
网页数据采集方法:爬虫
预处理:ETL
ch5 大数据计算模式与处理系统
5.2聚类算法
聚类:按照某个特定标准把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇的数据对象的差异性也尽可能大。
分类:划分方法(k-means)、层次方法(凝聚型层次聚类算法)、基于密度的方法、基于网格的方法、基于模型的方法(神经网络聚类算法)。
5.4 机器学习的定义
从实践意义上讲,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
机器学习与模式识别、数据挖掘、计算机视觉、语音识别、自然语言处理等领域有紧密的联系。
机器学习的方法:回归算法(线性回归和逻辑回归)、神经网络(人工神经网络ANN、卷积神经网络CNN,神经网络的机理是分解与整合)、SVM(支持向量机,诞生于统计学习界,一种强化的逻辑回归算法)、聚类算法、降维算法、推荐算法(协同过滤算法)、其他。
机器学习的应用:大数据
深度学习(机器学习的子类)
数据处理语言:R(数据分析必学)
大数据开发语言Python
相似性搜索工具的匹配方法:
基于属性值、等级属性值或属性剖面(余弦相似性)
余弦相似性指数 = AiBi 求和(1-n) / 根号(Ai的平方求和) 与根号(Bi的平方求和)之积
在比较的矢量(目标与候选要素之一)中创建标准化属性的剖面图(折线图)可以看到非常相似或非常不同的剖面
数据可视化工具:Google charts,百度charts,Datawrapper、RAW、Infogram
避免可视化数据的严重误区:错误信息;不完全信息、简单的数据、不合适的可视化、遗忘注释
已读完。。。入门级