分布式环境下的闭频繁项集挖掘算法研究
随着大数据时代的到来人们拥有的数据越来越多,如何管理和运用这些数据成为人们迫切需要解决的问题。大数据的特点之一就是数据容量大,甚至大到无法在一个数据中心进行存储,因此分布式技术成为处理大数据的最优方案之一。
针对不同的应用场景人们提出了不同的分布式解决方案,如网格,集群,云计算等。分布式存储系统解决了大数据的存放问题,使人们可以更安全,更高效的管理数据,但是仅仅拥有数据还是不够的,更重要的是从海量的数据里挖掘出对人们有用的信息。
数据挖掘研究的内容就是从数据里搜索出对人们有用的知识,数据挖掘也成为知识发现。数据挖掘早期的研究着重于单机环境下的数据处理,但是随着数据的分布存储和数据数量的指数增长传统的数据挖掘算法以不能适用于当前的环境,因此许多学者针对不同的分布式环境和数据挖掘里的不同分支研究了新的能高效运行于分布式环境的数据挖掘算法。
闭频繁项集挖掘是数据挖掘领域里的重要分支,也是许多挖掘算法里的必不可少的内容。但是闭频繁项集挖掘过程复杂包含了大量的计算,如何利用分布式巨大的数据处理能力来挖掘闭频繁项集成为人们研究的热点。
本文利用几种新的数据结构 ...


雷达卡


京公网安备 11010802022788号







