楼主: hujianping2299
1766 8

[其他] pdf文档中的无边框表格提取并存入excel中 [推广有奖]

  • 4关注
  • 2粉丝

VIP

已卖:29份资源

教授

47%

还不是VIP/贵宾

-

威望
0
论坛币
44600 个
通用积分
527.5350
学术水平
6 点
热心指数
8 点
信用等级
4 点
经验
39042 点
帖子
625
精华
0
在线时间
2154 小时
注册时间
2007-7-11
最后登录
2026-3-3

楼主
hujianping2299 在职认证  发表于 2023-6-16 11:35:51 |AI写论文
100论坛币
现在有4000多份pdf文档,其中的表格左右没有边框,尝试用了pdfplumber库进行了提取,但左右两边上的数据信息都没有提取到,有信息遗漏。有没有其他办法将无左右边框的表格信息完整地提取出来,并存入EXCEl中?

最佳答案

phonlee 查看完整内容

如果使用pdfplumber库提取表格时出现了信息遗漏的问题,可以尝试使用其他的Python库,例如Tabula-py、PyPDF2、Camelot等。这些库可以用于提取PDF中的表格数据,并将其转换为Excel或CSV格式。 另外,如果表格左右两边没有边框,可以试使用OCR技术进行识别。OCR技术可以将PDF中的图像转换为文本,从而提取表格数据。常用的OCR包括Tesseract、OCRopus等。 需要注意的是,由于PDF文件的格式多种多样,不同的PDF文件可能需要使用不同 ...
关键词:EXCEL pdf文档 xcel exce cel

回帖推荐

娜小娜娜 发表于3楼  查看完整内容

如果您尝试了pdfplumber库但左右两边上的数据信息都没有提取到,可能是由于表格的格式比较复杂或者表格边框被设置为不可见。以下是一些可能有用的方法来提取无左右边框的表格信息: 使用Tabula库:Tabula是一个用于提取表格数据的Python库,它可以从PDF文件中提取表格数据,并且可以处理没有边框的表格。您可以使用Tabula将PDF中的表格数据提取为CSV或Excel文件。 使用PDFMiner库:PDFMiner是另一个用于提取PDF数据的Python库 ...
已有 1 人评分经验 收起 理由
xujingtang + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

沙发
phonlee 发表于 2023-6-16 11:35:52
如果使用pdfplumber库提取表格时出现了信息遗漏的问题,可以尝试使用其他的Python库,例如Tabula-py、PyPDF2、Camelot等。这些库可以用于提取PDF中的表格数据,并将其转换为Excel或CSV格式。
另外,如果表格左右两边没有边框,可以试使用OCR技术进行识别。OCR技术可以将PDF中的图像转换为文本,从而提取表格数据。常用的OCR包括Tesseract、OCRopus等。
需要注意的是,由于PDF文件的格式多种多样,不同的PDF文件可能需要使用不同的方法进行处理。因此,需要根据具体情况选择合适的方法进行处理。
已有 1 人评分经验 收起 理由
cheetahfly + 100 热心帮助其他会员

总评分: 经验 + 100   查看全部评分

藤椅
娜小娜娜 发表于 2023-6-16 18:17:14
如果您尝试了pdfplumber库但左右两边上的数据信息都没有提取到,可能是由于表格的格式比较复杂或者表格边框被设置为不可见。以下是一些可能有用的方法来提取无左右边框的表格信息:

使用Tabula库:Tabula是一个用于提取表格数据的Python库,它可以从PDF文件中提取表格数据,并且可以处理没有边框的表格。您可以使用Tabula将PDF中的表格数据提取为CSV或Excel文件。
使用PDFMiner库:PDFMiner是另一个用于提取PDF数据的Python库,它可以从PDF文件中提取文本和图像。您可以使用PDFMiner提取表格数据,并将其转换为Excel格式。
使用在线工具:如果您不想使用Python库,也可以尝试使用在线工具来提取表格数据。例如,PDF Table Extractor是一个免费的在线工具,可以帮助您从PDF文件中提取表格数据,并且可以处理没有边框的表格。
无论您选择哪种方法,都建议先试几个表格看看效果,以确保提取的表格数据准确无误。另外,如果您需要在Excel中处理这些数据,请注意数据格式和格式化问题,以免出现问题。

板凳
小胖125 在职认证  发表于 2023-6-16 19:57:14 来自手机
hujianping2299 发表于 2023-6-16 11:35
现在有4000多份pdf文档,其中的表格左右没有边框,尝试用了pdfplumber库进行了提取,但左右两边上的数据信息 ...
感谢

报纸
fydydhorse1 发表于 2023-6-17 14:51:02 来自手机
娜小娜娜 发表于 2023-6-16 18:17
如果您尝试了pdfplumber库但左右两边上的数据信息都没有提取到,可能是由于表格的格式比较复杂或者表格边框 ...
好专业,赞

地板
babylaugh 发表于 2023-6-18 08:31:06
点赞分享

7
yyss007 发表于 2023-6-18 09:33:23
点赞楼主分享的实务操作问题,并感谢一楼二楼的专业分享!

8
HappyAndy_Lo 发表于 2023-6-18 10:13:26

9
albertwishedu 发表于 2023-6-18 10:14:49

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-5 14:50