楼主: 18004817351
4378 3

[程序分享] python爬取年报管理层讨论与分析 [推广有奖]

  • 1关注
  • 13粉丝

高中生

85%

还不是VIP/贵宾

-

威望
0
论坛币
3801 个
通用积分
1.3705
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
450 点
帖子
29
精华
0
在线时间
32 小时
注册时间
2021-3-16
最后登录
2024-4-21

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
使用林乐和谢德仁使用的LM词典进行爬取,中文词典来源于有道翻译(有英文词典也有中文词典,)
1、年报来源于巨潮咨询
2、爬取更新后的年报
3、剔除ST
4、摘取管理层讨论与分析,纯文本部分(有该部分的数据)
5、python爬取,程序为jieba
6、代码展示如下
7、可发邮箱询问a18004817351@163.com
import pdfplumber
import time
import os
import re

def get_page(text):
    for key in ['董事会报告', '董事局报告', '经营情况讨论与分析']:
        r1 = re.compile(key+'.*?(\d{1,3})')
        page1 = re.findall(r1, text)
        if len(page1):
            page1 = page1[0
            break
    else:
        return False
    r = re.compile(f'{key}.*?'+page1+'.*?\n.*?\n*?.+?(\d{1,3})')
    page2 = re.findall(r, text)
    if len(page2):
        page2 = page2[0


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 管理层 COMPILE import RETURN 管理层语调

LM有道翻译正负面词汇汇总(清洗完成)639+1450.xlsx

52.63 KB

需要: 15 个论坛币  [购买]

有道翻译,清洗完成的LM词典

沙发
vharry 在职认证  发表于 2022-1-3 16:03:56 |只看作者 |坛友微信交流群
感谢分享

使用道具

请问管理层讨论与分析部分怎么提取呢

使用道具

板凳
Olive_di 发表于 2023-6-5 12:08:34 |只看作者 |坛友微信交流群
新手小白啊啊啊 发表于 2023-1-25 14:06
请问管理层讨论与分析部分怎么提取呢
我也想问这个问题,不知您是否解决了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 18:36