楼主: 咔吱脆
1549 2

[问答] python爬虫 [推广有奖]

  • 0关注
  • 0粉丝

本科生

3%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0035
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
286 点
帖子
10
精华
0
在线时间
115 小时
注册时间
2021-3-3
最后登录
2024-11-25

楼主
咔吱脆 发表于 2022-8-8 19:03:34 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大家好:
  ①目前在学习爬虫,想实现一下功能:
  抓取百度输入【两个关键词】后页面中显示的【相关结果数量】,年份为2019、2020两年数据
  ②出现问题:
  设置时间后相关结果数量不再显示(图如附件),且代码运行有时正常,有时显示'NoneType' object has no attribute 'group'
  关键词有两个,如何组合可达到搜索结果为   ”关键词1“&”关键词2”  ?(目前仅尝试了一个关键词)
  ③已有代码如下:
def bd_searout(key,t1,t2):   
    '''key是搜索的关键词,t1是起始时间,t2是结束时间,
    t1,t2需要输入datetime类型的时间数据'''
    import requests,re
    from datetime import datetime
    t1_stamp = datetime.timestamp(t1)
    t2_stamp = datetime.timestamp(t2)
    header={'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'\
    ,'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}
    url = f'https://www.baidu.com/s?ie=UTF-8&wd={key}&gpc=stf={t1_stamp},{t2_stamp}|stftype=2&tfflag=1'
    result = requests.get(url,headers = header,timeout=5)
    print(url)
    print(result)
    text_out = result.text
    p = re.compile('百度为您找到相关结果约.+个')
    out = p.search(text_out).group()
    return out


from datetime import datetime
t1 = datetime(2019,1,1)
t2 = datetime(2019,12,31)
out = bd_searout('python',t1,t2)
print(out)


     求助大家,万分感谢!!!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python爬虫 python Application attribute datetime

微信图片_20220808190236.png (394.27 KB)

微信图片_20220808190236.png

沙发
heartlocker 发表于 2022-8-9 19:30:35
这个用clicknium很简单。 https://www.clicknium.com/documents/quickstart
vs code里面搜索一下clicknium插件就好了。

藤椅
heartlocker 发表于 2022-8-9 19:44:50
我刚才简单用clicknium试了一下。 你只要用recorder点一下那段文字  然后把locator里的属性修改一下就可以拿到这段文字了。 截取一下就能获得数字。 <TabclassName="Chrome_WidgetWin_1" role="window" title="*百度搜索" />

<WebancestorId="tsn_inner" sInfo="百度为您找到相关结果约*个" tag="SPAN" />


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-28 17:08