楼主: amdyxsls
6180 8

[问答] python解析网页,提取与关键词相关的网页标题 [推广有奖]

  • 1关注
  • 3粉丝

博士生

67%

还不是VIP/贵宾

-

威望
0
论坛币
178 个
通用积分
0.9100
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
3205 点
帖子
74
精华
0
在线时间
553 小时
注册时间
2012-5-18
最后登录
2022-10-30

楼主
amdyxsls 学生认证  发表于 2014-11-29 16:18:11 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
各位前辈,有一个很紧急的任务,求助!
任务:使用Linux的python,解析一批网页,将其中和“统计”相关的网页挑选出来,并将相应的网页标题和时间存储到txt或者excel中。
好像使用beautiful soup可以完成上述操作?
我在ubuntu下安装了这个:apt-get install Python-bs4 但是我的python是2.7.6的,是不是要安装这个?之后不会处理了。。
谢谢大家!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 关键词 beautiful install Ubuntu python 关键词 网页

本帖被以下文库推荐

沙发
amdyxsls 学生认证  发表于 2014-11-29 16:32:56 |只看作者 |坛友微信交流群
我在这儿是在找不到地方悬赏论坛币,就去悬赏区又发了一次,大家谁有好的答案我也可以小小地表示一下感谢!https://bbs.pinggu.org/forum.php? ... =3436488&extra=

使用道具

藤椅
ribbon 发表于 2014-11-29 22:04:15 来自手机 |只看作者 |坛友微信交流群
amdyxsls 发表于 2014-11-29 16:32
我在这儿是在找不到地方悬赏论坛币,就去悬赏区又发了一次,大家谁有好的答案我也可以小小地表示一下感谢! ...
sudo pip install beautifualsoup4
或者sudo easy_install beautifulsoup4
以后用from bs4 import BautifuSoup导入
已有 1 人评分论坛币 收起 理由
狂热的爱好者 + 60 热心帮助其他会员

总评分: 论坛币 + 60   查看全部评分

使用道具

板凳
ribbon 发表于 2014-11-29 22:08:26 来自手机 |只看作者 |坛友微信交流群
ribbon 发表于 2014-11-29 22:04
sudo pip install beautifualsoup4
或者sudo easy_install beautifulsoup4
以后用from bs4 import Bautif ...
以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧),beautifulsoup很方便的,也不复杂,你肯定能学会完成你的任务

使用道具

报纸
amdyxsls 学生认证  发表于 2014-11-29 23:11:53 |只看作者 |坛友微信交流群
ribbon 发表于 2014-11-29 22:08
以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧),beautifulsoup很方便的,也不复 ...
好的!谢谢!
我看了一些之后,想问一下,是不是可以用soup.findAll函数?

使用道具

地板
amdyxsls 学生认证  发表于 2014-11-30 01:10:49 |只看作者 |坛友微信交流群
ribbon 发表于 2014-11-29 22:08
以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧),beautifulsoup很方便的,也不复 ...
大神,请问下述程序有什么错误?能够成功运行但是结果为空。
网址是百度搜索“university”的结果。我想找一下结果中和math相关的网页标题和时间。
import urllib2
url='http://www.baidu.com/s?wd=university&pn=0&oq=university&tn=baiduhome_pg&ie=utf-8&usm=4&rsv_idx=2&rsv_pq=b247bd8100001b24&rsv_t=75f2y6ETpxsjOyy%2Fh5S%2Foe55%2FlLCh1Y87d9bcDBzxDN4bsLRN7YA2umnH%2BzOdHnxI8B1&rsv_spt=1&issp=1&f=8&rsv_bp=0'
content=urllib2.urlopen(url).read()
from BeautifulSoup import BeautifulSoup
soup=BeautifulSoup(content)
siteUrls=soup.findAll('math',attrs={'class':'g'})
siteUrls

而当我把math改为span时就会有较为正常的结果了。。。感觉我没搞明白findAll这个函数,自己看了好久了。求指点。
谢谢!

使用道具

7
ribbon 发表于 2014-11-30 11:49:02 来自手机 |只看作者 |坛友微信交流群
amdyxsls 发表于 2014-11-30 01:10
大神,请问下述程序有什么错误?能够成功运行但是结果为空。
网址是百度搜索“university”的结果。我想 ...
soup.findall(\'math\',attrs={\"class\"=g})意思为搜索含有tag为math的节点且属性class为g。你要搜索的math到底为节点?还是节点里的内容?如果搜索内容就要搜索每个节点的.string,一个简单的做法是re.search(r\'math\',soup.string),然后判断结果是否为None.还有你认真看beautifulsoup的document,里面都有详细讲解。

使用道具

8
ribbon 发表于 2014-11-30 11:54:15 来自手机 |只看作者 |坛友微信交流群
ribbon 发表于 2014-11-30 11:49
soup.findall('math',attrs={"class"=g})意思为搜索含有tag为math的节点且属性class为g。你要搜索的m ...
我觉得你的思路应该是:
1.判断是否是math相关网页(用findall和正则表达re)
2.然后,抓取标题和时间(用findall就可以了)

使用道具

9
amdyxsls 学生认证  发表于 2014-11-30 13:47:24 |只看作者 |坛友微信交流群
ribbon 发表于 2014-11-30 11:54
我觉得你的思路应该是:
1.判断是否是math相关网页(用findall和正则表达re)
2.然后,抓取标题和时间(用fi ...
哦!这样啊!我再看看!谢谢!

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 16:09