为什么需要数据挖掘
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
数据挖掘,就是从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。这些模型和关系可以被企业用来分析风险、预测未来。
数据挖掘的目的就是从数据中“淘金”,是从数据中获取价值的过程。数据挖掘是提供了从数据到价值的解决方案,“机器学习”是数据挖掘的基石,“建模”是数据挖掘过程中最关键的一个环节。
可视化的机器学习建模
Smartbi Mining以互联网式用户体验为目标的全新产品设计,极简风格的流式建模,快速实现各种类型的数据挖掘应用,为个人、团队和企业所做的决策提供预测性智能。
平台具备流程化、可视化的建模界面,内置实用的、经典的统计挖掘算法和深度学习算法,这些算法配置简单降低了机器学习的使用门槛,大大节省了成本,业务人员可通过轻松拖拉拽组件的操作,进行可视化建模,完成模型流程的搭建,并能将模型发布管理。
该平台将机器学习系统做成更加通用的、简单易用的平台,可以帮助企业将相关业务轻易接入该平台,从而帮助企业利用机器学习的手段挖掘分析企业数据和解决相关的业务问题。
图:拖拉拽建模示例
Smartbi Mining汇集50+种数据挖掘算法组件,灵活建立业务模型流程,主要包含基本的数据特征处理、分类、聚类、关联、回归、深度学习算法,以及支持Java和Python算法扩展。
l 操作简单
该平台通过直观易用的拖拽式操作可轻松实现数据准备,数据预处理、特征工程、模型训练、模型预测与评估的全流程,让用户轻松使用机器学习技术。除此,用户可通过对数据预处理操作、特征工程以及模型配置不同参数实现不同的任务需求。
l 丰富的数据预处理操作
该平台支持并行化的预处理操作,并支持多种数据预处理操作,例如:合并行、去除重复值、过滤空值、增加序列号、类型转换、随机采样、加权采样、分层采样、拆分等。
l 大量的实用算法
该平台支持多种高效实用的机器学习算法,包含了分类、聚类、回归等算法,其中包含了多种可训练的模型:逻辑回归、渐进梯度决策树、决策树、随机森林、朴素贝叶斯、支持向量机、线性回归、渐进梯度回归树、K均值、DBSCAN、高斯混合模型。
l 支持文本分析
面对生活中海量以文本形式存在的数据,抽取出未知的、重要的、有价值的知识,如词频分析,分析用户偏好、帮助知识管理、提升客户服务等。
l 数据可视化
该平台提供多种可视化效果,包括数据可视化、模型可视化和模型评估结果可视化。
l 挖掘模型自学习
平台可以自动补充新数据重新训练,保证模型预测准确性,极大减轻运维人员的工作量。
l 模型集中管理,一键发布
该平台实现对模型的集中管理,与商业智能平台完美整合,使商业智能平台拥有数据挖掘的功能。