摘要:随着网络技术、通信技术等的不断突破,互联网、移动网、广电网等多种类现代网络及其衍生业务迅速扩张,形成泛在于网络空间的分布式计算环境。为了最大化这些数据的价值,需要利用数据挖掘技术发现其中隐藏的模式或规则,用以指导和辅助生产或运营中的管理决策行为,以提高决策水平及决策收益。然而,受到普遍存在的异构性、私有性和平台兼容性等限制,兼因行业竞争和法律约束等因素(如个人或企业的数据隐私保护问题等),互联于网络的数据源难于进行集中式挖掘,分布式
数据挖掘(DDM)技术应运而生。介绍了DDM的定义与框架、适用场景和研究挑战。根据文中给出的DDM高层架构,最终结果的质量与局部数据源的类型、可用性、局部结果的质量及整合方法等密切相关。DDM的实施未必都以站点间纯粹独立挖掘的方式进行,此外,对于数据集中,系统分布式站点多的情况,也可采用DDM。当前,DDM研究领域的挑战主要有:异构与同构挖掘、动态环境下的数据多变性、通信开销、知识整合和语义异构等。当前的DDM系统被分为4类:1)基于Multi—Agent的系统,利用Agent的自治性实现局部挖掘以保护数据私有性;利用Agent的主动性减少用户参与以提高挖掘自动化水平;利用Agent的协作性实现多算法协同挖掘等;2)基于网格的系统,利用网格在资源共享、开放服务和协同工作等方面的优势,提高挖掘的可靠性和协同性;3)基于元学习的系统,通过元学习优化挖掘算法的选择与组合,并对已获知识进行多次学习以提高结果质量;4)基于CDM(collectivedatamining)框架的系统,将待学习的函数表示为一组基函数的分布式存在,允许各数据源选择不同的学习算法,并以全局结果正确为前提减少网络通信量。进而,对当前DDM研究存在的共性
原文链接:http://www.cqvip.com/QK/94553A/201401/48391030.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)