熊猫采集工具软件功能特点及介绍
功能特点:
熊猫采集工具软件打破传统采集的繁杂模式,引用智能化傻瓜式操作模式,软件力求设计成为一款通用性的泛采集工具软件。在功能设计上力求通用性,提供各种可以自由组合的功能方法,由用户灵活采用,以实现各自的不同采集需求,因此采集工具软件的一些常见功能都会具备,下面列出熊猫一些较特色的功能:
全方位的采集功能
采集的对象包括文字内容、图片、flash 动画视频、下载文件等等各类网络内容。支持图文混排对象的同时采集。支持结构复杂的采集对象集合,支持复杂多数据库表单,支持跨页面内容合并采集的能力。
多模板自动适应能力
很多网站的“内容页面”会存在多个不同种类的模板,因此熊猫采集软件允许每个采集项目可以同时设置多个内容页面参考模板,在采集运行时,系统会自动匹配寻找最合适的参考模板用来分析内容页面。
实时帮助窗口
在采集项目设置环节,系统会在窗口右上显示与当前配置相关的实时帮助内容,为使用新手提供实时帮助。因此熊猫采集软件的使用可以轻松上手。配合全程智能化辅助能力,即便是第一次接触熊猫采集软件,也可以较轻松实现采集项目的配置工作。
正文和回复内容同时采集的能力
典型如论坛页面,正文内容在前,若干回复内容在后,或者还存在若干个回复分页存在。熊猫采集可以将这些作为一个“对象”来对待,一并同时完整采集,其配置过程也非常简单。
分页内容的轻松合并
支持各种类型的分页模式,用户只需要做两步就可以实现分页内容的合并:鼠标点选确认分页链接所在,将需要分页合并的字段项勾选上“分页合并”项即可。如果页面内具有重复子项存在,则能自动在分页中寻找该重复子项,隐含自动进行分页内容合并。
典型如上述的论坛例子,分页页面内的回复内容,可自动实现归并,此时用户只需要鼠标点选确认分页链接所在即可。有些场合下,在论坛内容页面的分页中也会同时出现主体(主表)内容,此时系统会自动进行判断,不会将主表内容当成重复子项的子表内容进行采集。
采集对象的内容可以是分散在多个页面(模板页面的深度嵌套访问)
熊猫采集是面向对象的,一个采集对象可以拥有许多需要采集的子项属性内容。这些子项属性的内容允许分散在不同的页面内,这些页面可以是需要通过若干次链接才能到达的页面。
此处所谓“对象”,可以理解为“(需要采集的数据的)数据集合”的意思。这个数据集合的内容和范围由用户根据实际需求自行决定,没有特定的要求。也可以将该对象范畴囊括到“标题列表页面”,这属于变通使用的方法,在此不多做赘述。灵活的使用面向对象的方法,不仅可以实现很多复杂的采集需求,更可以使得采集设置过程更为简单。
利用cookie 方式模拟登录网站
对于需要登录才能访问采集页面的网站(包括Discuz 等各类型论坛),可以利用账号进行模拟登录。熊猫采集可以通过模拟浏览器机制,利用动态cookie 和网站进行cookie 动态对话。有些网站,为了加强数据的安全性,利用cookie 对网页内容数据进行加密,此时就需要使用熊猫采集特有的“动态Cookie”功能。
支持常见类型数据库引擎。支持FTP 上传目前版本的熊猫,支持Access/mssql/mysql/Oracle 四种常用数据库类型,以后可能会视需求进行扩充。支持将下载的各类文件图片等同时FTP 上传到远程服务器内。用户利用此项功能就可以将在本地电脑上采集的数据同时更新到自己网站内,充实栏目内容。对于其他的动态数据发布方式,熊猫会在用户使用反馈的基础上尽快实现。
无人值守自动定时运行
提供更新采集访问的能力,自动定时更新运行。无需人工干预,系统自动封闭运行。
文字内容的“伪原创”修改。支持文章时间的提前提供文字内容的“伪原创”修改。还可以将文章时间做“提前”修改,文章的发表时间是搜索引擎用来区别文章是否原创的一个参考因素。
详情请查看熊猫采集工具软件官方网站(http://www.caijiruanjian.com