楼主: 火烧云st
1915 2

[问答] python网络爬虫求助_python爬虫 [推广有奖]

  • 0关注
  • 1粉丝

大专生

21%

还不是VIP/贵宾

-

威望
0
论坛币
92 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
314 点
帖子
26
精华
0
在线时间
48 小时
注册时间
2014-6-6
最后登录
2022-10-18

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
求助大神们:下面是一个python的小爬虫,本想爬取网站上的新闻标题,日期和点击量,但运行结果中却并没有出现这些内容只有  日期: 点击量:。这是什么问题呢?新手刚入道,望多多指教!

#! /usr/bin/env python
#coding=gbk

import urllib2
import sys
import re
import os

def extract_url(info):
    rege="<li><span class=\"title\"><a href=\"(.*?)\">"
    re_url = re.findall(rege, info)
    n=len(re_url)
    for i in range(0,n):
        re_url="http://news.swjtu.edu.cn/"+re_url
    return re_url

def extract_title(sub_web):
    re_key = "<h4>\r\n (.*)\r\n </h4>"   
    title = re.findall(re_key,sub_web) or [""]
    return title

def extract_date(sub_web):
    re_key = "日期:(.*?)    "
    date = re.findall(re_key,sub_web) or [""]
    return date

def extract_counts(sub_web):
    re_key = "点击数:(.*?)  "
    counts = re.findall(re_key,sub_web) or [""]
    return counts   


fp=open('output.txt','w')
content = urllib2.urlopen('http://news.swjtu.edu.cn/ShowList-82-0-1.shtml').read()
url=extract_url(content)
string=""
n=len(url)
print n

for i in range(0,n):
    sub_web = urllib2.urlopen(url).read()
    sub_title = extract_title(sub_web)
    string+=sub_title[0]
    string+=''
    sub_date = extract_date(sub_web)
    string+="日期:"+sub_date[0]
    string+=''
    sub_counts = extract_counts(sub_web)
    string+="点击数:"+sub_counts[0]
    string+='\n'

print string
fp.close()

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python爬虫 python 网络爬虫 extract Content python网络爬虫 python爬虫

回帖推荐

FullerHua 发表于2楼  查看完整内容

爬虫技术发展到今天,我不推荐使用正在表达式直接解析静态的html,因为当前网页动态化很普遍。应该掌握适用度更高的技术,可以参看这个Python开源项目:http://www.gooseeker.com/land/python.html
沙发
FullerHua 发表于 2016-9-18 10:14:55 |只看作者 |坛友微信交流群
爬虫技术发展到今天,我不推荐使用正在表达式直接解析静态的html,因为当前网页动态化很普遍。应该掌握适用度更高的技术,可以参看这个Python开源项目:http://www.gooseeker.com/land/python.html

使用道具

藤椅
火烧云st 发表于 2016-10-14 18:51:30 |只看作者 |坛友微信交流群
FullerHua 发表于 2016-9-18 10:14
爬虫技术发展到今天,我不推荐使用正在表达式直接解析静态的html,因为当前网页动态化很普遍。应该掌握适用 ...
谢谢啦

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-6 05:29