Python 读取 pdf 文件 汇总
pdfplumber
pdfplumber库按页处理 pdf ,获取页面文字,提取表格等操作。
学习文档:https://github.com/jsvine/pdfpl
import pdfplumber with pdfplumber.open("E:\新员工\【学员讲义】企业文化.pdf") as pdf: page01 = pdf.pages[9] #指定页码 text = page01.extract_text()#提取文本 print(text) table = page01.extract_tables() # 提取表格 print(table)
PyPDF2
PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等。
官方文档:https://pythonhosted.org/PyPDF2
pdf2docx
可将 PDF 转换成 docx 文件的 Python 库。
该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。
from pdf2docx import parse pdf_file = 'E:\新员工\【学员讲义】企业文化.pdf' docx_file = 'E:\新员工\【学员讲义】企业文化2.docx' # convert pdf to docx parse(pdf_file, docx_file)
PDFminer
PDFMiner内置pdf2txt.py和dumppdf.py。但是pdf2txt.py从PDF文件中提取所有文本内容。但不能识别画成图片的文本,这需要对图片特征进行识别。对于加密的PDF你需要提供一个密码才能解析,对于没有提取权限的PDF文档你得不到任何文本。
https://pdfminersix.readthedocs.io
xpdf
这个文本介绍了Xpdf,一个免费的PDF浏览器和工具包。它包括文本提取器、图片转换器、HTML转换器等工具,大部分工具都是开源的。
http://www.xpdfreader.com/
参考资料3还有很多方法,自行查看
参考资料:
https://zhuanlan.zhihu.com/p/344384506 Python操作PDF全总结|pdfplumber&PyPDF2
https://mp.weixin.qq.com/s/gCU1hYmmHpqiV9APHotrYA 只需2行代码,轻松将PDF转换成Word
https://mp.weixin.qq.com/s/W1TciuOp4FTBU09LHQYptQ AI文档智能助理都是如何处理pdf的?