有一个免费的用于数据挖掘和情报采集的网页数据抓取工具MetaSeeker,能够精确地将网页内容转换成结构化数据,抓取到的数据存成XML文件,含有语义元数据,便于数据挖掘和数据集成。源代码开放,可以看到设计思路很独特,重在互联网内容的语义标注以促进现有互联网内容向语义网络时代迁移。
MetaSeeker是个工具包,里面有三个软件工具:
1,MetaStudio,网页内容语义标注工具,根据语义标注自动生成数据抓取规则,图形界面免编程
2,DataScraper,网站数据抓取工具,用定题网络爬虫连续大批量抓取网页内容并结构化,采用一个十分精巧的工作流引擎驱动
3,SliceSearch,异构数据对象综合搜索引擎,可以快速部署垂直搜索、综合搜索、对象搜索、实时搜索等,是一个对象管理系统
MetaSeeker从GooSeeker网站( [url=http://www.gooseeker.com]http://www.gooseeker.com[/url] )免费下载,此网站是一个关于信息采集、数据挖掘和网络内容著作权的知识共享平台。


雷达卡



京公网安备 11010802022788号







