楼主: 我的素质低
2265 0

[Hadoop] 〖摘·hadoop〗apache nutch功能(四) [推广有奖]

已卖:2774份资源

学术权威

83%

还不是VIP/贵宾

-

TA的文库  其他...

〖素质文库〗

结构方程模型

考研资料库

威望
8
论坛币
23391 个
通用积分
28308.6707
学术水平
2705 点
热心指数
2881 点
信用等级
2398 点
经验
228576 点
帖子
2968
精华
52
在线时间
2175 小时
注册时间
2012-11-24
最后登录
2024-1-13

一级伯乐勋章 初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级学术勋章

楼主
我的素质低 学生认证  发表于 2015-3-16 15:13:10 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

做一个网络爬虫的程序吧,根据客户的需求,要求把相关的内容爬取到本地


最终选择的是apache nutch,到目前为止最新的版本是1.3




1. Nutch是什么?




      Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。

     其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构





2. 在哪里要可以下载到最新的Nutch?




在下面地址中可以下载到最新的Nutch 1.3二进制包和源代码


http://mirror.bjtu.edu.cn/apache//nutch/





3. 如何配置Nutch?




   3.1 对下载后的压缩包进行解压,然后cd $HOME/nutch-1.3/runtime/local

   3.2 配置bin/nutch这个文件的权限,使用chmod +x bin/nutch

   3.3 配置JAVA_HOME,使用export JAVA_HOME=$PATH





4. 抓取前要做什么准备工作?




4.1 配置http.agent.name这个属性,在conf目录下

<prename="code"class="html"><property>

    <name>http.agent.name</name>

    <value>My Nutch Spider</value>

</property>


4.2 建立一个地址目录,mkdir -p urls


   在这个目录中建立一个url文件,写上一些url,如

http://www.apache.org


4.3 然后运行如下命令


bin/nutch crawl urls -dir mydir -depth 3 -topN 5


注意,这里是不带索引的,如果要对抓取的数据建立索引,运行如下命令

-dir                       选项设置抓取结果存放目录

-depth                 选项设置爬取的深度

-threads             选项设置并行爬取的线程数

-topN                  选项设置每个深度爬取的最大页数

最后就可以查看mydir中的结果了







一个典型的爬虫主要有如下阶段




  • URL库初始化然后开始爬取。
  • 爬虫读取没有访问过的URL,来确定它的工作范围。
  • 获取URL的内容
  • 解析内容,获取URL以及所需的数据。
  • 存储有价值的数据。
  • 规范化新抓取的URL。
  • 过滤掉不需要爬去的URL。
  • 把要抓取的URL更新到URL库中。
  • 重复步骤2,直到抓取的网页深度完毕为止。



附加一张中文图



不知道为什么在Nutch-1.3中没了Nutch自带的搜索war文件,而且在Nutch-1.3中,抓取文件后,生成的目录只有crawldb,linkdb,segments



查了一下官网Wiki,上面是把Nutch的索引映射到solr,用solr来提供搜索功能,详见官网Wiki说明:


http://wiki.apache.org/nutch/RunningNutchAndSolr



对比这两个,搜索同一关键字,发现Nutch搜索的展示结果有重复,而solr没有重复,还有solr可以在


conf/schema.xml配置字段属 性,nutch好像改了这个配置文件,也没起效果,比如,我想让索引中存储content和termvector,可是搜索结果,并没有存储





下面安装并且配置solr



从官方下载

http://www.apache.org/dyn/closer.cgi/lucene/solr/


下载完成后解压缩


到solr的example目录下,运行


java -jar start.jar


运行成功如图

打开浏览器


http://localhost:8983/solr/


进入solradmin出现如下界面,运行成功


(来源:小象学院~)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Hadoop apache APA Had PAC 源代码 export 二进制 压缩包 lapache nutch

已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 100 + 100 + 5 + 5 + 5 精彩帖子
daazx + 3 + 3 精彩帖子

总评分: 经验 + 100  论坛币 + 100  学术水平 + 8  热心指数 + 8  信用等级 + 5   查看全部评分

本帖被以下文库推荐

心晴的时候,雨也是晴;心雨的时候,晴也是雨!
扣扣:407117636,欢迎一块儿吐槽!!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-2 12:49