人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › python论坛 › 使用Python读取PDF内容_Python实战应用

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 浪子彦青

1687 0

[网帖精选] 使用Python读取PDF内容_Python实战应用 [推广有奖]

1关注
168
粉丝

院士

39%

还不是VIP/贵宾

威望: 1 级
论坛币: 3261 个
通用积分: 127.6558
学术水平: 74 点
热心指数: 86 点
信用等级: 63 点
经验: 27315 点
帖子: 1718
精华: 0
在线时间: 421 小时
注册时间: 2016-6-4
最后登录: 2021-2-1

楼主

浪子彦青

发表于 2016-12-4 16:34:30 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

使用Python读取PDF内容_Python实战应用

1.引言

晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。

从而产生了一个问题：用Python爬虫的话，能做到什么程度。下面将讲述一个实验过程和源代码。

2.把pdf转换成文本的Python源代码

下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。

from urllib.requestimport urlopenfrom pdfminer.pdfinterp import PDFResourceManager,process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layoutimport LAParamsfrom io import StringIOfrom io import opendef readPDF(pdfFile):
rsrcmgr =PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device =TextConverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr,device, pdfFile)
device.close()

content = retstr.getvalue()
retstr.close()
return contentpdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")outputString= readPDF(pdfFile)print(outputString)pdfFile.close()

如果PDF文件在你的电脑里，那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。

3.展望

这个实验只是把pdf转换成了文本，但是没有像开头所说的转换成html标签，那么在Python编程环境下是否有这个能力，留待今后探索。

End.

作者：fullerhua（中国统计网特邀认证作者）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏3 回帖

关键词：python PDF Converter Converte resource Python数据采集 Python格式转换使用Python读取PDF内容 Python实战应用 Python转换pdf

[网帖精选] 使用Python读取PDF内容_Python实战应用 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[网帖精选] 使用Python读取PDF内容_Python实战应用 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群