楼主: 万人往LVR
932 2

[问答] 问个爬虫解析问题 [推广有奖]

  • 1关注
  • 13粉丝

已卖:2份资源

副教授

82%

还不是VIP/贵宾

-

威望
0
论坛币
5127 个
通用积分
816.2492
学术水平
70 点
热心指数
112 点
信用等级
40 点
经验
9088 点
帖子
625
精华
0
在线时间
1182 小时
注册时间
2013-7-18
最后登录
2024-6-25

楼主
万人往LVR 在职认证  发表于 2017-10-26 15:09:52 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大神们,问个爬虫解析的问题,下面是爬取下来的一个片段

<td class="t_f" id="123">
<div class="a_pr">balabalaba</div>
我要提取的文字
<ignore_js_op>balabalaba</ignore_js_op>
</td>

如何从上面提取出我要提取的文字?不用正则表达式,只用 xml 的方式

原数据:
  1. from bs4 import BeautifulSoup
  2. headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ",
  3.            "Accept": "*/*",
  4.            "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
  5.            "Connection": "keep-alive",
  6.            "Accept-Encoding": "gzip, deflate, br",
  7.            "Referer": "https://bbs.51credit.com/forum.php?mod=forumdisplay&fid=216",
  8.            "X-Requested-With": "XMLHttpRequest",
  9.            "Accept-Encoding": "gzip, deflate, br"}
  10. aa = BeautifulSoup(requests.get('https://bbs.51credit.com/thread-3868462-1-1.html',headers=headers).text, 'html.parser')
  11. aa.select('td.t_f')[0]
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:connection beautiful requested Language Request

沙发
纯洁理想奋斗 在职认证  发表于 2017-10-26 15:19:40
提示: 作者被禁止或删除 内容自动屏蔽

藤椅
万人往LVR 在职认证  发表于 2017-10-26 15:41:49
解决了....
先decompose,再text

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-9 06:11