发帖

楼主: 数据分析闯天下

1644 0

[数据挖掘工具] 数据挖掘工具_优秀的开源数据挖掘软件 [推广有奖]

0关注
66粉丝

教授

55%

还不是VIP/贵宾

-

0%

威望: 1 级
论坛币: 13016 个
通用积分: 63.9349
学术水平: 26 点
热心指数: 25 点
信用等级: 15 点
经验: 8663 点
帖子: 617
精华: 0
在线时间: 170 小时
注册时间: 2016-12-6
最后登录: 2017-4-8

楼主

数据分析闯天下

发表于 2017-1-10 20:50:12 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

数据挖掘工具_优秀的开源数据挖掘软件
市面上数据挖掘工具有很多，好用的数据挖掘软件大多是商用软件，但也有不少优秀的开源数据挖掘工具，今天就为大家介绍几款比较流行的数据挖掘工具。现在的开源数据挖掘软件，大多采用可视化编程的设计思路（就是用图形化的方法，来建立整个挖掘流程）。之所以这么做，是因为它能足够灵活和易用，更适合缺乏计算机科学知识的用户。

R

用于统计分析和图形化的计算机语言及分析工具，为了保证性能，其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用，它提供了一种脚本语言，即R语言。R语言和贝尔实验室开发的S语言类似。R支持一系列分析技术，包括统计检验、预测建模、数据可视化等等。在CRAN上可以找到众多开源的扩展包。
R软件的首选界面是命令行界面，通过编写脚本来调用分析功能。如果缺乏编程技能，也可使用图形界面，比如使用R Commande或Rattle。

Tanagra

使用图形界面的数据挖掘软件，采用了类似Windows资源管理器中的树状结构来组织分析组件。Tanagra缺乏高级的可视化能力，但它的强项是统计分析，提供了众多的有参和无参检验方法。同时它的特征选取方法也很多。

Weka

可能是名气最大的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时，Weka也为普通用户提供了图形化界面，称为 Weka KnowledgeFlow Environment和Weka Explorer。和R相比，Weka在统计分析方面较弱，但在机器学习方面要强得多。在Weka论坛可以找到很多扩展包，比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。

RapidMiner

YALE (Yet Another Learning Environment) 提供了图形化界面，采用了类似Windows资源管理器中的树状结构来组织分析组件，树上每个节点表示不同的运算符（operator）。YALE中提供了大量的运算符，包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的，基于Weka来构建，也就是说它可以调用Weka中的各种分析组件。

KNIME

KNIME (Konstanz InformationMiner)是基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装，方便使用（大家喜欢的绿色版）。和YALE一样，KNIME也是用Java开发的，可以扩展使用Weka中的挖掘算法。和YALE不同点的是，KNIME采用的是类似数据流（data flow）的方式来建立分析挖掘流程（这个我喜欢，和SAS EM或SPSS Clementine等商用数据挖掘软件的操作方式类似）。挖掘流程由一系列功能节点（node）组成，每个节点有输入/输出端口（port），用于接收数据或模型、导出结果。（感觉KNIME比Weka的KnowledgeFlow更好用，连接节点时很方便，直接用鼠标拖拽连接端口即可。而Weka中则需要在节点上按鼠标右键，再选择后续节点，比较麻烦，刚开始使用时找了半天才知道怎么连）
KNIME中每个节点都带有交通信号灯，用于指示该节点的状态（未连接、未配置、缺乏输入数据时为红灯；准备执行为黄灯；执行完毕后为绿灯）。在KNIME中有个特色功能——HiLite，允许用户在节点结果中标记感兴趣的记录，并进一步展开后续探索。

Orange

类似KNIME和Weka KnowledgeFlow的数据挖掘工具，它的图形环境称为Orange画布（OrangeCanvas），用户可以在画布上放置分析控件（widget），然后把控件连接起来即可组成挖掘流程。这里的控件和KNIME中的节点是类似的概念。每个控件执行特定的功能，但与KNIME中的节点不同，KNIME节点的输入输出分为两种类型（模型和数据），而Orange的控件间可以传递多种不同的信号，比如learners, classifiers, evaluation results, distance matrices, dendrograms等等。Orange的控件不象KNIME的节点分得那么细，也就是说要完成同样的分析挖掘任务，在Orange里使用的控件数量可以比KNIME中的节点数少一些。Orange的好处是使用更简单一些，但缺点是控制能力要比KNIME弱。
除了界面友好易于使用的优点，Orange的强项在于提供了大量可视化方法，可以对数据和模型进行多种图形化展示，并能智能搜索合适的可视化形式，支持对数据的交互式探索。
Orange的弱项在于传统统计分析能力不强，不支持统计检验，报表能力也有限。Orange的底层核心也是采用C++编写，同时允许用户使用Python脚本语言来进行扩展开发(参见http://www.scipy.org)。

GGobi
数据可视化是数据挖掘的重要组成部分， GGobi就是用于交互式可视化的开源软件，它使用brushing的方法。GGobi可以用作R软件的插件，或者通过Perl、Python等脚本语言来调用。

Mahout

是由 Apache Lucene（开源搜索）社区中对机器学习感兴趣的一些成员发起的，他们希望建立一个可靠、文档翔实、可伸缩的项目，在其中实现一些常见的用于集群和分类的机器学习算法。该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”（见参考资料），但此后在发展中又并入了更多广泛的机器学习方法。

Mahout 支持一些集群算法实现（都是使用 Map-Reduce 编写的），它们都有一组各自的目标和标准：
Canopy：一种快速集群算法，通常用于为其他集群算法创建初始种子。
k-Means（以及模糊 k-Means）：根据项目与之前迭代的质心（或中心）之间的距离将项目添加到 k 集群中。
Mean-Shift：无需任何关于集群数量的推理知识的算法，它可以生成任意形状的集群。
Dirichlet：借助基于多种概率模型的集群，它不需要提前执行特定的集群视图。

PyMining

这是一个能够根据源数据（比如说用csv格式表示的矩阵，或者中文文档）使用多种多样的算法去得到结果的一个平台。
算法能够通过xml配置文件去一个一个的运行，比如在开始的时候，我们可以先运行一下主成分分析算法去做特种选择，然后我们再运行随机森林算法来做分类。
目前算法主要是针对那些单机能够完成的任务，该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法，并且用于工程之中（相信我，肯定比Weka更快更好）。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。
开源中文文本数据挖掘平台 Ver 0.1发布，开源项目详细介绍支持中文文本的数据挖掘平台开源项目PyMining发布

结论
以上介绍的几款软件都是优秀的开源数据挖掘软件，各有所长，同时也各有缺点。读者可以结合自己的需求来进行选择，或者组合使用多个软件。对于普通用户可以选用界面友好易于使用的软件，对于希望从事算法开发的用户则可以根据软件开发工具不同（Java、R、C++、Python等）来选择相应的软件。以上这几款软件（除了GGobi）基本上都提供了我们期望的大部分功能。
我尝试了以上这几种开源软件，Weka很有名但用起来并不方便，界面也简单了点；RapidMiner现在流行的势头在上升，但它的操作方式和商用软件差别较大，不支持分析流程图的方式，当包含的运算符比较多的时候就不容易查看了；KNIME和Orange看起来都不错，Orange界面看上去很清爽，但我发现它不支持中文。我的推荐是KNIME，同时安装Weka和R扩展包。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：数据挖掘挖掘软件 environment information classifiers 数据挖掘工具数据挖掘软件开源数据挖掘工具数据挖掘工具哪个好常用的数据挖掘工具

[数据挖掘工具] 数据挖掘工具_优秀的开源数据挖掘软件 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘工具] 数据挖掘工具_优秀的开源数据挖掘软件 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群