使用林乐和谢德仁使用的LM词典进行爬取,中文词典来源于有道翻译(有英文词典也有中文词典,)
1、年报来源于巨潮咨询
2、爬取更新后的年报
3、剔除ST
4、摘取管理层讨论与分析,纯文本部分(有该部分的数据)
5、python爬取,程序为jieba
6、代码展示如下
7、可发邮箱询问a18004817351@163.com
import pdfplumber
import time
import os
import re
def get_page(text):
for key in ['董事会报告', '董事局报告', '经营情况讨论与分析']:
r1 = re.compile(key+'.*?(\d{1,3})')
page1 = re.findall(r1, text)
if len(page1):
page1 = page1[0
break
else:
return False
r = re.compile(f'{key}.*?'+page1+'.*?\n.*?\n*?.+?(\d{1,3})')
page2 = re.findall(r, text)
if len(page2):
page2 = page2[0