如果使用pdfplumber库提取表格时出现了信息遗漏的问题,可以尝试使用其他的Python库,例如Tabula-py、PyPDF2、Camelot等。这些库可以用于提取PDF中的表格数据,并将其转换为Excel或CSV格式。
另外,如果表格左右两边没有边框,可以试使用OCR技术进行识别。OCR技术可以将PDF中的图像转换为文本,从而提取表格数据。常用的OCR包括Tesseract、OCRopus等。
需要注意的是,由于PDF文件的格式多种多样,不同的PDF文件可能需要使用不同的方法进行处理。因此,需要根据具体情况选择合适的方法进行处理。


雷达卡






京公网安备 11010802022788号







