楼主: wuchm
1692 7

[问答] 正则表达式求助 [推广有奖]

  • 6关注
  • 1粉丝

博士生

53%

还不是VIP/贵宾

-

威望
0
论坛币
2395 个
通用积分
4.5100
学术水平
1 点
热心指数
1 点
信用等级
0 点
经验
5151 点
帖子
230
精华
0
在线时间
236 小时
注册时间
2007-4-24
最后登录
2023-10-5

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
http://jinganghuating.fang.com/

上述url的正则表达式不会写,求助大侠帮忙,万分感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:正则表达式 表达式 Gang Fang 万分感谢 表达式

沙发
开心1101 发表于 2015-12-1 17:27:46 |只看作者 |坛友微信交流群
你要取什么值?还是说只是匹配url即可?

使用道具

藤椅
wuchm 发表于 2015-12-3 15:58:17 |只看作者 |坛友微信交流群
开心1101 发表于 2015-12-1 17:27
你要取什么值?还是说只是匹配url即可?
是匹配url,就是访问搜房网首页到具体某个小区链接,用于scrapy爬虫所有小区信息,正则表达式写rules。

http://esf.sz.fang.com/housing/(起始链接,不用写)

http://esf.sz.fang.com/housing/__0_0_0_0_2_0_0/(下一页,要写正则表达式)

http://yicuishanzhuangzh.fang.com/(具体某个小区,要写正则表达式)

先谢谢了!!

使用道具

板凳
万人往LVR 在职认证  发表于 2015-12-4 17:59:02 |只看作者 |坛友微信交流群
(?<=title>【)[^,]+

使用道具

报纸
开心1101 发表于 2015-12-6 21:14:03 |只看作者 |坛友微信交流群
sel=Selector(response)
next page:  next_page_link=sel.xpath(//a[@id="PageControl1_hlk_next"]/@href)
某个小区:    res_link=sel.xpath('//dt/a[contains(@href,"fang.com/")]/text()')

然后自己把next_page_link add to request的队列中去

使用道具

地板
wuchm 发表于 2015-12-8 22:50:30 |只看作者 |坛友微信交流群
开心1101 发表于 2015-12-6 21:14
sel=Selector(response)
next page:  next_page_link=sel.xpath(//a[@id="PageControl1_hlk_next"]/@href) ...
谢谢你的解答,是这么写吗?还要安装哪些安装包?

start_urls.append("http://esf.sz.fang.com/housing/")

sel=Selector(response)
next_page_link=sel.xpath(//a[@id=
"PageControl1_hlk_next"]/@href)
sel.xpath(
'//dt/a[contains(@href,"fang.com/")]/text()')

def parse_item(self, response):   

soufangspiderItem['name'] = response.xpath('//div[@class="itemTitle"]/h2/span[1]/text()').extract()[0]

使用道具

7
开心1101 发表于 2015-12-9 21:47:02 |只看作者 |坛友微信交流群
scrapy 是一个框架,只要这个框架可以正常运行,你又没有其他额外的需求的话,就不用安装其他的包了

使用道具

8
wuchm 发表于 2015-12-15 22:13:27 |只看作者 |坛友微信交流群
开心1101 发表于 2015-12-9 21:47
scrapy 是一个框架,只要这个框架可以正常运行,你又没有其他额外的需求的话,就不用安装其他的包了
谢谢你的耐心解答,可以帮我看看京东的url吗?

首页  http://list.jd.com/list.html?cat=9987,653,655

展开链接:http://item.jd.com/1124332.html
                http://item.jd.com/1124332.html#comment
首页和展开链接的前面路径好像不一样啊,不知道怎么写,帮忙看看,谢谢!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-1 12:44