楼主: wangzhiyu139
3905 18

[经管数据集] 2001-2022年上市公司年报(txt及pdf文本年报+巨潮资讯python下载+文本分析代码) [推广有奖]

11
wangzhiyu139(未真实交易用户) 学生认证  发表于 2023-12-28 19:36:39
lemonapple0124 发表于 2023-12-28 16:44
你好,解压成功以后,2007文件夹中还有2007_1文件夹,两个里面有2007-23,请问是以哪个为准呢
子文件夹里的年报是我根据自身的情况又单独拿出来的,和主文件里重复的年报没有区别,子文件夹里有些和主文件重复有些没重复,使用时将子文件里的年报复制或剪切,粘贴到主文件里,剔除重复项即可。

12
bestjoe(未真实交易用户) 发表于 2024-1-5 16:23:37

13
liujiafei(真实交易用户) 发表于 2024-2-10 15:29:06
楼主,你的1.text在哪里

14
wangzhiyu139(未真实交易用户) 学生认证  发表于 2024-2-10 17:32:05 来自手机
自己设置的关键词,一行一个关键词

15
小菜鸡(疯狂学习版(真实交易用户) 发表于 2024-3-5 20:06:03
楼主你好,请问为什么我用代码导出到excel中后,公司代码中的0全部隐去了,只剩下数字(如000001变成了1),有什么方法能固定pychcarm导出的结果吗?还有就是,将关键词导入jieba词库后,为什么导出的excel列多于关键词的个数(我有5个关键词。可是导出的结果显示词频有9列)

16
wangzhiyu139(未真实交易用户) 学生认证  发表于 2024-3-5 21:20:54
小菜鸡(疯狂学习版 发表于 2024-3-5 20:06
楼主你好,请问为什么我用代码导出到excel中后,公司代码中的0全部隐去了,只剩下数字(如000001变成了1), ...
提取公司代码后转文本,只针对原文件就是000001_2010.txt 这样命名的,stkcd = str(file_str.split("_")[0])。我一般都是做好后STATA转dta文件,destring _all,replace,将能转数字的转数字格式,你也可以先destring stkcd,replace;然后tostring stkcd,gen(stkcd1)
replace stkcd1 = "0" + stkcd1 if length(stkcd1) == 5
replace stkcd1 = "00" + stkcd1 if length(stkcd1) == 4
replace stkcd1 = "000" + stkcd1 if length(stkcd1) == 3
replace stkcd1 = "0000" + stkcd1 if length(stkcd1) == 2
replace stkcd1 = "00000" + stkcd1 if length(stkcd1) == 1
drop stkcd
rename stkcd1 stkcd
order stkcd,之后将数据输出excel。关键词列数的问题详看我发的帖子关键词在文件中如何设置,代码和表格列名对应的是类似sheet1_1.write(index1 + 1, 0, stkcd)这样的代码,看看是第几列开始才是真正的关键词列,前几列是其他信息。

17
Josiie(真实交易用户) 发表于 2024-3-21 20:21:31
您好,想问一下下载了txt,然后用您的代码跑显示UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc5 in position 49153: invalid continuation byte是因为什么呀

18
wangzhiyu139(未真实交易用户) 学生认证  发表于 2024-3-21 21:56:52
Josiie 发表于 2024-3-21 20:21
您好,想问一下下载了txt,然后用您的代码跑显示UnicodeDecodeError: 'utf-8' codec can't decode byte 0x ...
可能有几个文本不是utf-8编码,可使用try,except,即
......
try:
           f = open(file, encoding='utf-8')
.......

except:
            print("未完成" + file)
continue
不停止代码运行的情况下将出现问题的文本显示出来,出现问题的文本依据具体情况分别进行处理,非utf-8编码的文件,可将代码中f = open(file, encoding='utf-8'),改成f = open(file, encoding='gbk'),再运行代码。

19
Josiie(真实交易用户) 发表于 2024-3-24 16:17:47
wangzhiyu139 发表于 2024-3-21 21:56
可能有几个文本不是utf-8编码,可使用try,except,即
......
try:
找到啦~谢谢楼主~

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 23:15