Python 读取 pdf 文件汇总

努力的孔子 / 2023-09-05 / 原文

pdfplumber

pdfplumber库按页处理 pdf ，获取页面文字，提取表格等操作。

学习文档：https://github.com/jsvine/pdfpl

import pdfplumber
with pdfplumber.open("E:\新员工\【学员讲义】企业文化.pdf") as pdf:
    page01 = pdf.pages[9] #指定页码
    text = page01.extract_text()#提取文本
    print(text)

    table = page01.extract_tables()  # 提取表格
    print(table)

PyPDF2

PyPDF2 是一个纯 Python PDF 库，可以读取文档信息（标题，作者等）、写入、分割、合并PDF文档，它还可以对pdf文档进行添加水印、加密解密等。

官方文档：https://pythonhosted.org/PyPDF2

pdf2docx

可将 PDF 转换成 docx 文件的 Python 库。

该项目通过 PyMuPDF 库提取 PDF 文件中的数据，然后采用 python-docx 库解析内容的布局、段落、图片、表格等，最后自动生成 docx 文件。

from pdf2docx import parse

pdf_file = 'E:\新员工\【学员讲义】企业文化.pdf'
docx_file = 'E:\新员工\【学员讲义】企业文化2.docx'

# convert pdf to docx
parse(pdf_file, docx_file)

PDFminer

PDFMiner内置pdf2txt.py和dumppdf.py。但是pdf2txt.py从PDF文件中提取所有文本内容。但不能识别画成图片的文本，这需要对图片特征进行识别。对于加密的PDF你需要提供一个密码才能解析，对于没有提取权限的PDF文档你得不到任何文本。

https://pdfminersix.readthedocs.io

xpdf

这个文本介绍了Xpdf，一个免费的PDF浏览器和工具包。它包括文本提取器、图片转换器、HTML转换器等工具，大部分工具都是开源的。

http://www.xpdfreader.com/

参考资料3还有很多方法，自行查看

参考资料：

https://zhuanlan.zhihu.com/p/344384506　　Python操作PDF全总结|pdfplumber&PyPDF2

https://mp.weixin.qq.com/s/gCU1hYmmHpqiV9APHotrYA　　只需2行代码，轻松将PDF转换成Word

https://mp.weixin.qq.com/s/W1TciuOp4FTBU09LHQYptQ　　AI文档智能助理都是如何处理pdf的？

Python 读取 pdf 文件汇总更多相关文章

今日报告-66

设置Windows10暂停更新3000天

AQS公平锁的流程

AMD锐龙7 7800X3D网游专项测试：竟比i9-13900KS强了15%

常用总线技术基本参数对比

探索图像数据中的隐藏信息：语义实体识别和关系抽取的奇妙之旅

设置Chrome浏览器自动升级

JavaScript – 小技巧 Tips

Winform无边框窗体实现拖动

STM32基础（一）

技术人的修炼---九五小庞

vue自定义事件用法及$emit

ODOO 科目配置4

sqlite 触发器 c#

postgresql在插入数据后怎么获取自增id

EF Core 的基本使用

error: failed to push some refs to 'https://github.com/*******/********.github.io.git'

编程语言能力对比

基于机器视觉的小车轨迹控制软件界面展示

随机推荐

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

android 13 更改手机信号调整

BFS(Breath First Search 广度优先搜索)

Visual Studio Code（VSCode）中设置中文界面

影响黄金价格大幅波动的因素主要有哪些？

热门话题

Ethernaut Level 11: Elevator Attack and Blockchain Interaction

快速部署开源spug运维平台的Docker安装指南

驱动调试之printk的原理与使用

计算机思维模型及其应用

华为云发布代码大模型PanGu-Coder2，实现高效代码生成

Linux多硬盘数据存储和分区操作

构建高可用架构: 分层冗余与自动故障转移

LoRA：高效调参的大语言模型适应方法

《分布式系统的基本原理及互联网分层架构的本质》

Hadoop写流程解析

Java架构师的系统架构设计方法论中的规范要点

使用observeDOM解决BetterScroll插件在移动端无法滑动的问题

互联网一致性架构设计实践

高并发系统架构与水平扩展

混合应用的崛起：跨平台开发取代原生应用

穗舟网（www.seizhou.com）

本站除标明"本站原创"外所有文章版权归创作人所有，本站不承担任何法律责任和连带责任，如有冒犯请直接联系，我们将立即予以纠正并致歉。

Powered by WordPress · v1.0.0-alpha