[网帖精选] 我出来抛砖引玉一下，希望能让更多人爱上Python！ [推广有奖]

11楼

zhangb02 发表于 2014-8-7 14:57:49

的确很方便，正在入门学习。您的代码能方便共享一下吗？

12楼

qdzhxg 发表于 2014-8-7 15:05:14

正在学习中，更有信息了

13楼

小马哥_M 发表于 2014-8-7 15:32:06

[quote]zhangb02 发表于 2014-8-7 14:57 http://my.oschina.net/mayepythoner/blog/298503

这是爬虫的代码，爬的是这个页面 http://jasss.soc.surrey.ac.uk/index_by_issue.html ：

#!/usr/bin/python
#coding:utf-8
import urllib
import sys
from BeautifulSoup import BeautifulSoup
from HTMLParser import HTMLParser
reload(sys)
sys.setdefaultencoding('utf-8')
#打开主网页
for i in xrange(15,17):
for j in xrange(1,5):
while True:
url = "http://jasss.soc.surrey.ac.uk/" + str(i) + "/" + str(j) + "/contents.html"
f = urllib.urlopen(url)
soup = BeautifulSoup(f.read())
blockquote = soup.find('blockquote')
volume = blockquote.find('h1').text
date = blockquote.find('h2').text
articles = blockquote.findAll('a')
if articles:
break
print volume
print date
print '\n'
for article in articles:
article_url = article['href']
while True:
f_article = urllib.urlopen(article_url)
soup_article = BeautifulSoup(f_article.read())
if soup_article:
break
titlehtml = soup_article.find(attrs={"class":"arttitle"})
if not titlehtml:
continue
title = titlehtml.text
authors = soup_article.find(attrs={"class":"artauthor"}).find('a').text
contents = soup_article.find(attrs={"class":"article"}).find('dl').findAll('dd')
abstract = contents[0].text
keywords = contents[1].text
print title
print "作者：" + authors
print "摘要：" + abstract
print "关键词：" + keywords
print "url:" + article_url
print '\n'
for j in xrange(1,3):
while True:
url = "http://jasss.soc.surrey.ac.uk/17/" + str(j) + "/contents.html"
f = urllib.urlopen(url)
soup = BeautifulSoup(f.read())
blockquote = soup.find('blockquote')
volume = blockquote.find('h1').text
date = blockquote.find('h2').text
articles = blockquote.findAll('a')
if articles:
break
print volume
print date
print '\n'
for article in articles:
article_url = article['href']
while True:
f_article = urllib.urlopen(article_url)
soup_article = BeautifulSoup(f_article.read())
if soup_article:
break
titlehtml = soup_article.find(attrs={"class":"arttitle"})
if not titlehtml:
continue
title = titlehtml.text
authors = soup_article.find(attrs={"class":"artauthor"}).find('a').text
contents = soup_article.find(attrs={"class":"article"}).find('dl').findAll('dd')
abstract = contents[0].text
keywords = contents[1].text
print title
print "作者：" + authors
print "摘要：" + abstract
print "关键词：" + keywords
print "url:" + article_url
print '\n'