数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联
R,SAS,SPSS等典型应用场景为 实验室工具
处理数据量受限于内存,因此无法处理海量数据
使用Oracle数据库等处理海量数据,但缺乏有效快速专业的分析功能
可以采用抽样等方法,但有局限性,比如对于聚类,推荐系统则无法使用抽样
解决方向:Hadoop集群和Map-Reduce并行计算
分类的定义
分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分为学习和分类阶段。
分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型。
分类的目的是利用分类模型预测未知类别数据对象的所属类别。
贝叶斯分类器用于垃圾邮件分类。