数据挖掘-各种工具介绍1-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 数据>>

数据挖掘

>>

数据挖掘-各种工具介绍1

数据挖掘-各种工具介绍1

发布:茶余饭后/v | 分类:数据挖掘

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

一、关于datamining:科学的定义:一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。二、datamining的工具(摘自百度文库,经自己简单整理):数据挖掘工具 ...
扫码加入金融交流群


一、关于data mining:
科学的定义:一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。
二、data mining的工具(摘自百度文库,经自己简单整理):
数据挖掘工具的市场一般分为三个组成部分:
a、通用型工具;b、综合/DSS/OLAP数据挖掘工具;c、快速发展的面向特定应用的工具。
通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM 公司Almaden 研究中心开发的QUEST 系统,SGI 公司开发的MineSet 系统,加拿大Simon Fraser 大学开发的DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。
综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和Business Objects等。
面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件。
下面简单介绍几种常用的数据挖掘工具:
  1. QUEST
  QUEST 是IBM 公司Almaden 研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:
  1、提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。
  2、各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。
  3、算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。
  4、为各种发现功能设计了相应的并行算法。
  2. MineSet
  MineSet 是由SGI 公司和美国Standford 大学联合开发的多任务数据挖掘系统。MineSet 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet 2.6 有如下特点:
  (1)MineSet 以先进的可视化显示方法闻名于世。MineSet 2.6 中使用了6 种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果, 以便更好地理解。MineSet 2.6 中的可视化工具有Splat Visualize、Scatter Visualize、Map Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer,其中Record Viewer 是二维表,Statistics Visualize 是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。
  (2)提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。
  (3)支持多种关系数据库。可以直接从Oracle、Informix、Sybase 的表读取数据,也可以通过SQL 命令执行查询。
  (4)多种数据转换功能。在进行挖掘前,MineSet 可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。
  (5)操作简单。
  (6)支持国际字符。
  (7)可以直接发布到Web。
  3. DBMiner
  DBMiner 是加拿大Simon Fraser 大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner 系统具有如下特色:
  (1)能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。
  (2)综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。
  (3)提出了一种交互式的类SQL 语言——数据开采查询语言DMQL。
  (4)能与关系数据库平滑集成。
  (5)实现了基于客户/ 服务器体系结构的Unix 和PC(Windows/NT)版本的系统。
  4、IBM Intelligent Miner
  IBM公司以它在美国及世界各地的研究实验室发展数年的资料探勘解决方案,发展出了一系列包括在人工智能、机制学习、语言分析及知识发掘上的应用和基本研究的精密软件。IBM的Intelligent Miner在资料探勘工具的领导地位上是极具竞争力的,因为它提供了以下的好处: 包含了最广泛的资料探勘技术及算法 ,可容纳相当大的资料量的能力且有强大的计算能力;事实上,这套产品在IBM SP的大量平行硬件系统上执行效率最好,这套产品也可以在IBM或非IBM平台上执行 丰富的APIs可用来发展自定的资料探勘应用软件; 所有资料探勘引擎和资料操作函式可以透过C++函式库来存取 Intelligent Miner支持classification、prediction、association rules generation、clustering、sequential pattern detection和time series analysis算法,Intelligent Miner藉由利用精密的资料可视化技术及强大的Java-based使用者接口来增加它的可用性(目标大多锁定在有经验的使用者),Intelligent Miner支持DB2关系型数据库管理系统,并整合大量精密的资料操作函式结论整体而言,Intelligent Miner(for Data)是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,有所算法的效能甚至比其它应用不同的应用软件还要好,IBM将它定位在企业资料探勘解决方案的先锋。
  5、SAS Enterprise Miner
  SAS Enterprise Miner在资料探勘工具市场是非常杰出的工具,它运用了SAS统计模块的力量和影响力,且它增加了一系列的资料探勘算法,SAS使用它的取样、探测、修改、模式、评价(SEMMA)方法提供可以支持广泛的模式,包含合并、丛集、决策树、类神精网络、和统计回归 SASEnterpriseMiner适用于初学者及专业使用者,它的GUI接口是以资料流为导向,且它容易了解及使用,它允计分析师藉由使用连结连接资料节点及程序节点的方式建构一视觉数据流程图,除此之外,接口还允许程序码直接嵌入资料流因为支持多重模式。
Enterprise Miner允许使用者比较models和利用评估节点所选择之最适模式,除此之外,Enterprise Miner提供产生评定模式之评定节点能够存取任何SAS应用软件结论SAS利用它在统计分析软件上的专业来发展全功能、易于使用、可靠且可管理的系统,有大范围的模式选项和算法、设计良好的使用者接口、利用已存在的资料储存能力,和在统计分析上相当大的市场占有率(允许公司取得SAS新增的组件比增加一套新的工作来得好多了),对SAS来说,它在资料探勘市场上终究还是领导者整体而言,这个工具适用于企业在资料探勘的发展及整个CRM的决策支持应用.
  6、Oracle Darwin
Darwin常被认为是最早资料探勘工具之一,可见它的知名度,最近,Oracle从Thinking Machines公司取得Darwin来加强它的产品系列?S别是CRM方面,资料探勘可以扮演一个重要的角色,以下将讨论由Thinking Machines公司发展和行销的Darwin之特色(Oracle也许决定改变任何组件及工具架构) Darwin资料探勘工具组是一个复杂的产品,包含了三个资料探勘工具:neural networks、decision tree、和K-nearest neighbor,Darwin neural network tool (Darwin-Net)提供广泛的model建立工具组,它可以处理明确和连续预测因素和目标变量且可以用于分类、预测及预测问题决策树工具(DarwinTree)使用CART算法,且可以用于以明确和连续变量来分类问题解决,K-nearest neighbor工具(DarwinMatch)可用于以明确相依变量,和明确且连续预测变量来分类问题解决虽然每个组件工具有一些缺点,Darwin包含了模式评价的完全功能组,它可对所有模式型态产生summary statistics、confusion matrices、lift tablesDarwin提供初学者及专家相当好的使用者接口,虽然接口显得较适合专业使用者从一个大量并行计算机的第一制造者可知,Darwin在处理效能及范围有强大的优势,它的算法对并行计算是最适合的,且有足够的弹性执行平行及循序架构,Oracle当然不会忽视这种能力,且它定位在帮助Oracle成为可以包含到一个大型的全球企业的数据库及应用产品的首要厂商主要使用的算法为neural network、decision tree、和K-nearest neighborneural network-training algorithms包含back propagation,steepest descent,modified Newton等方法decision tree使用CART algorithms可选择所需的子树数目自动的修改决策树K-nearest neighbor algorithm是memory-based reasoning(MBR)技术,它可依训练组中K最接近的匹配记录来预测相依变量值结论Darwin的优点是支持多重算法(计画加入基因算法及人工智能逻辑)它可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,在多处理器服务器上,Darwin可以取得硬件及大范围能力的优势,Darwin证明了强大的效能及大范围的能力,整体而言,Darwin定位在中、大范围的执行.
  7、Clementine(SPSS)
Clementine是SPSS所发行的一种资料探勘工具,此工具结合了多种图形使用者接口的分析技术,包含neural networks、association rules、及rule-induction techniques,这些工具提供容易使用的可视化程序环境来执行这些分析功能。Clementine使用图形象征的方法,就是透过托拉鼠标和连接屏幕上的功能节点,这些节点提供了data access、data manipulation、data visualization、machine learning以及model analysis,模式的组成是从一个pallet中选取合适之节点,并放置在屏幕上再连接各节点Clementine有强大的资料存取能力包含flat file及关系型数据库(经由ODBC),Clementine也可让modeling的结果持续的写回一ODBC的DBMS输入资料的操作包含配对合并及衍生新字段的能力,Clementine的资料可视化能力包含散布图、平面图及Web分析.
  8、Thought and Scenario(Cognos)
Cognos介绍两个资料探勘工具的组合:4Thought和Scenario来巩固它在OLAP市场的位置,这些工具藉由利用neural networks和CHAID技术提供资料探勘能力,一般而言,Cognos所有平台和特殊用途的窗口环境都支持这些工具,这两个工具都需要电子表格、数据库和ASCII文字文件作为资料来源 4Thought可以处理在寻求价格最佳化、需求预测及效能预测及衡量等各种商业问题,4Thought使用multilayer perceptron OLAP、neural network技术,适用于分析问题,处理non-linear forms、noisy datal及small data sets,4Thought提供了两个主要的分析:time series analysis及customer profiling,time series analysis寻找周期性的行为趋势,而customer profiling处理人口统计资料,例如,预测一顾客是否会购买一特定的产品Scenario是设计用来分类及结合问题;它可以找出一资料组中变量间的关系,Scenario使用Chi-squared Automatic Interaction Detection(CHAID),且可以产生多种对预测变量划分的方法,Scenario提供不同的分析策略、自动取样及决策树的产生,然而,Scenario并不是用来处理分类的目标变量,Scenario在资料探测及可视化是十分强大的Scenario及4Thought的共同优点是他们广泛且直觉的使用者接口,他们的目标锁定在初学者,它使用绘图表示univariable analysis或decision tree metaphor,且提供一良好的视觉表达方式来表现在区域间的资料变量,趋势分析及相关因素,Scenario有一template可分析从竞争及每季获利信息Cognos表示它将以它的PowerPlay(OLAP)及Impromptu(reporting)应用软件整合4Thought及Scenario.
 
「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-1281384-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版