楼主: yusb
205 0

[经管数据集] JAVA Web数据爬虫项目源代码Spiderman ajax、微内核高扩展、配置灵活多线程保证性能 [推广有奖]

已卖:21020份资源
好评率:99%
商家信誉:一般

巨擘

0%

还不是VIP/贵宾

-

威望
1
论坛币
40750 个
通用积分
2588.9809
学术水平
18 点
热心指数
29 点
信用等级
5 点
经验
3830 点
帖子
20027
精华
0
在线时间
11690 小时
注册时间
2020-12-8
最后登录
2025-12-26

楼主
yusb 在职认证  发表于 2023-10-24 17:39:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

JAVA Web数据爬虫项目源代码Spiderman ajax、微内核高扩展、配置灵活多线程保证性能
强力 Java 爬虫,列表分页、详细页分页、ajax、微内核高扩展、配置灵活


  Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。

    Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。

   

它包含了两部分(二者缺一不可):

-----------------------------

    * spiderman-core 内核

    * spiderman-plugin 插件

主要特点

----------------------

    * 微内核+插件式架构、灵活、可扩展性强

    * 无需编写程序代码即可完成数据抽取

    * 多线程保证性能

怎么使用?

----------

* 首先,确定好你的目标网站以及目标网页(即某一类你想要获取数据的网页,例如网易新闻的新闻页面)

* 然后,打开目标页面,分析页面的HTML结构,得到你想要数据的XPath,具体XPath怎么获取请看下文。

* 最后,在一个xml配置文件里填写好参数,运行Spiderman吧!

近期更新

----

1. <parser 的表达式支持发起HTTP请求获取内容了:

    <parser exp="$Fetcher.get('http://www.baidu.com')"

2. <target节点添加 <before节点配置,该配置与<model一样可以用来解析网页内容,主要的区别是该节点会在<model节点解析之前进行工作,其解析后的结果将会作为model的上下文$before.xxx来使用

3. 重构下载器,支持多种下载器实现,允许在xml里面配置自己实现的下载器实现类,官方默认提供了三种,分别是默认的基于HttpClient的下载器、基于WebUnit的下载器、基于Selenium WebDriver的实现

    <site downloader="org.eweb4j.spiderman.plugin.util.WebDriverDownloader"

    或者

    <site downloader="xxx.YourDownloader">

4. 与第三点一样,重构了模型解析器,使得现在支持多种不同的实现类,且允许开发者在xml上指定自己实现的解析器,目前官方提供了两种解析器,分别是DefaultModelParser,WebDriverModelParser

     <before parser="xxx.xxx.xxx.YourModelParser"

     或者

     <model parser="xxx.YourModelParser"

5. 其他一些零碎的更新、BUG修复等。

XPath获取技巧?

--------------

* 首先,下载xpathonclick插件,[猛击这里](https://chrome.google.com/webstore/search/xpathonclick)

* 安装完毕之后,打开Chrome浏览器,可以看到右上角有个“X Path” 图标。

* 在浏览器打开你的目标网页,然后点击右上角的那个图片,然后点击网标上你想要获取XPath的地方,例如某个标题

* 这时候按住F12打开JS控制台,拖到底部,可以看到一串XPath内容

* 记住,这个内容不是绝对OK的,你可能还需要做些修改,因此,你最好还是去学习下XPath语法

* 学习XPath语法的地方:[猛击这里](http://www.w3school.com.cn/xpath/index.asp)

Spiderman Sample | 案例

=======================

* 首先保证你的机器至少可以运行Java程序、也可以执行Maven命令

* 案例程序[spiderman-sample] mvn test

* Spiderman程序将会运行N秒钟,然后到保存抓取数据的文件夹查看对应网站的数据

* 这里有篇文章介绍示例:[http://my.oschina.net/laiweiwei/blog/100866]


JAVA Web数据爬虫项目源代码.zip (29.76 MB, 需要: RMB 19 元)

2b845eacd4f90690ae11adfde35633d.png







二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Derman Spider Java Ajax RMA

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-26 09:43