人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 问个爬虫解析问题

发帖

楼主: 万人往LVR

971 2

[问答] 问个爬虫解析问题 [推广有奖]

1关注
13粉丝

已卖：2份资源

副教授

82%

还不是VIP/贵宾

威望: 0 级
论坛币: 5127 个
通用积分: 816.2492
学术水平: 70 点
热心指数: 112 点
信用等级: 40 点
经验: 9088 点
帖子: 625
精华: 0
在线时间: 1182 小时
注册时间: 2013-7-18
最后登录: 2024-6-25

楼主

万人往LVR

发表于 2017-10-26 15:09:52 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

大神们，问个爬虫解析的问题，下面是爬取下来的一个片段

<td class="t_f" id="123">
<div class="a_pr">balabalaba</div>
我要提取的文字
<ignore_js_op>balabalaba</ignore_js_op>
</td>

如何从上面提取出我要提取的文字？不用正则表达式，只用 xml 的方式

原数据：

from bs4 import BeautifulSoup
headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
"Accept": "*/*",
"Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Connection": "keep-alive",
"Accept-Encoding": "gzip, deflate, br",
"Referer": "https://bbs.51credit.com/forum.php?mod=forumdisplay&fid=216",
"X-Requested-With": "XMLHttpRequest",
"Accept-Encoding": "gzip, deflate, br"}
aa = BeautifulSoup(requests.get('https://bbs.51credit.com/thread-3868462-1-1.html',headers=headers).text, 'html.parser')
aa.select('td.t_f')[0]

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：connection beautiful requested Language Request

相关帖子

加关注串个门加好友发消息 102 关注 63粉丝院士纯洁理想奋斗当前离线阅读权限 255 威望 1 级论坛币 16627 个通用积分 3096.6834 学术水平 198 点热心指数 341 点信用等级 206 点经验 193683 点帖子 3724 精华 0 在线时间 3826 小时注册时间 2012-9-22 最后登录 2021-8-3 雷达卡	沙发纯洁理想奋斗发表于 2017-10-26 15:19:40 提示: 作者被禁止或删除内容自动屏蔽

	回复举报

藤椅

万人往LVR

发表于 2017-10-26 15:41:49

解决了....
先decompose，再text

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[问答] 问个爬虫解析问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级热心勋章

初级信用勋章

本版微信群

[问答] 问个爬虫解析问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级热心勋章

初级信用勋章

本版微信群

扫码加我拉你入群