当前位置：首页 > 文章列表 > 文章 > python教程 > Python操作PDF：PyPDF2提取文本与合并教程

Python操作PDF：PyPDF2提取文本与合并教程

2026-04-02 11:12:55 0浏览收藏

Python处理PDF远比想象中复杂：PyPDF2虽曾是主流工具，但面对“伪PDF”报错、文本提取为空或乱码、合并后体积暴增、以及Python 3.12+兼容性崩溃等问题，暴露了其底层校验严苛、容错弱、不维护等深层局限；实际开发中，必须结合file命令验证文件真伪、用pdfplumber或OCR应对无文本层/中文乱码、借pikepdf或qpdf优化合并体积，并果断迁移到活跃维护的pypdf——因为PDF的本质是高度碎片化的格式协议，可靠操作的关键不在“怎么写代码”，而在于系统性验证输入、分场景选工具、预处理加兜底的工程化思维。

Python怎么操作PDF文件_PyPDF2提取文本与合并PDF教程

PyPDF2 读取 PDF 报 `PdfReadError: Not a PDF file` 怎么办

不是所有带 .pdf 后缀的文件都是合法 PDF，PyPDF2 对文件头和结构校验严格。常见于下载不完整、被重命名的文档、或用某些在线工具导出的“伪 PDF”（实际是 HTML 或图片打包）。

实操建议：

先用系统命令确认文件类型：file document.pdf，输出应含 PDF document；若显示 data 或 HTML，说明不是真 PDF
用 pdfplumber 或 fitz（PyMuPDF）尝试打开——它们容错更强，但注意：后者需单独安装 pip install PyMuPDF
如果文件来自网页下载，检查是否被浏览器自动保存为 .pdf?xxx 形式，重命名时漏掉了查询参数，导致实际是 HTML 响应体

用 `PyPDF2.PdfReader` 提取文本为空或乱码

PyPDF2 不解析渲染逻辑，只读取 PDF 中的“文本对象流”，而很多 PDF（尤其扫描件、LaTeX 导出、或加了字体子集的文档）根本不存可提取的文本，或者用了未嵌入的字体。

实操建议：

先运行 reader.pages[0].extract_text()，再检查返回值是否为 None 或空字符串；如果是，基本可判定该页无文本层
不要依赖 extract_text() 处理扫描 PDF——它完全无效；改用 pytesseract + pdf2image 做 OCR
中文乱码通常因字体未嵌入或编码映射缺失，PyPDF2 本身不处理字体解码；可换 pdfplumber，它对中文字体支持更稳，调用方式类似：pdfplumber.open("x.pdf").pages[0].extract_text()

`PyPDF2.PdfWriter` 合并 PDF 后体积暴增

PyPDF2 默认不做对象去重和压缩，每合并一次，就把所有原始 PDF 的资源（字体、图像、元数据）全拷一份进来，哪怕内容完全重复。

实操建议：

合并前手动清理源文件：用 qpdf --optimize 预处理（需系统安装 qpdf），或用 pikepdf 替代：pip install pikepdf，它支持原地压缩与对象复用
避免多次 add_page() 后反复写入；一次性收集所有 PdfReader 实例，再统一添加到 PdfWriter，减少中间状态
写入时禁用默认元数据注入：writer.add_metadata({})，否则会把每个源 PDF 的作者/标题等信息都堆进去

PyPDF2 在 Python 3.12+ 上安装失败或运行报 `ImportError: cannot import name 'PDFObjectNotFound'`

PyPDF2 自 3.0.0 版起已停止维护，官方推荐迁移到 pypdf（注意包名变了）。旧版 PyPDF2 不兼容新 Python 的 AST 解析器变更，且部分异常类已被移除。

实操建议：

立刻卸载：pip uninstall PyPDF2，安装替代品：pip install pypdf
代码只需微调：把 from PyPDF2 import PdfReader, PdfWriter 改成 from pypdf import PdfReader, PdfWriter；其余 API 几乎一致
别信“改源码注释掉 import 行”的方案——后续遇到加密 PDF 或数字签名时会崩得更彻底

PDF 操作真正麻烦的从来不是语法，而是格式本身的碎片化：同一份文档，在不同生成工具、不同 Acrobat 版本、甚至不同导出选项下，底层结构可能天差地别。选库只是第一步，验证输入、预处理、兜底策略，一样都不能少。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《Python操作PDF：PyPDF2提取文本与合并教程》文章吧，也可关注golang学习网公众号了解相关技术文章。

Flex布局实现多列设计，flex-basis设置列宽详解

上一篇: Flex布局实现多列设计，flex-basis设置列宽详解

下一篇: 12123查违章抓拍照片方法详解

查看更多

最新文章

文章 · python教程 | 16小时前 | 日志 · 排查 · python · logging · Python logging handler 日志排查日志重复 propagate

Python logging 日志重复打印怎么办：从 Handler 叠加到 propagate 一步步排查

299浏览收藏
文章 · python教程 | 1天前 | 正则表达式 · python · 数据处理 · 日志分析 · Python教程 · Python 正则表达式日志解析命名分组接口统计错误行处理

Python 正则解析日志实战：命名分组、错误行兜底和接口统计

308浏览收藏
文章 · python教程 | 2天前 | 文件处理 · 标准库 · 配置管理 · python · 原子写入 · Python 配置文件 TempFile os.replace 原子写文件

Python 原子写配置文件实战：tempfile 和 os.replace 防止半截文件

209浏览收藏
文章 · python教程 | 2天前 | 标准库 · python · 日志分析 · TopK · heapq · Python counter heapq TopK 日志统计

Python heapq 统计日志 TopK 实战：大文件里找出高频接口

329浏览收藏
文章 · python教程 | 2天前 | 标准库 · Python教程 · 自动化脚本 · zipfile · Python 文件过滤标准库 zipfile 压缩包批量打包

Python zipfile 批量打包实战：保留目录结构、过滤临时文件和写入校验

437浏览收藏
文章 · python教程 | 2天前 | 图片处理 · pillow · webp · Python教程 · 批量压缩 · Python webp 图片压缩批量处理图片优化 Pillow

Python Pillow 图片批量压缩实战：限制宽度、输出 WebP 和校验清晰度

299浏览收藏
文章 · python教程 | 2天前 | 标准库 · 命令行 · python · 软件教程 · 工具开发 · Python 命令行工具参数校验 argparse 子命令配置合并

Python argparse 命令行工具实战：子命令、参数校验和配置合并

241浏览收藏
文章 · python教程 | 3天前 | csv · python · 数据处理 · 后端开发 · 批量导入 · Python 批处理数据校验事务提交 CSV批量导入错误行回写

Python CSV 批量导入实战：分批校验、错误行回写和事务提交

204浏览收藏
文章 · python教程 | 3天前 | 配置管理 · 工程实践 · Python教程 · dataclass · Python 环境变量配置管理 dataclass 启动校验

Python dataclass 配置管理实战：默认值、环境变量覆盖和启动校验

131浏览收藏
文章 · python教程 | 3天前 | 文件处理 · Python教程 · pathlib · 自动化脚本 · Python 日志 shutil pathlib 文件归档批量整理文件

Python pathlib 批量整理文件实战：按扩展名归档和冲突重命名

166浏览收藏
文章 · python教程 | 3天前 | 文件处理 · Python教程 · 生成器 · 数据清洗 · Python 生成器内存优化逐行读取大文件处理批量写入

Python 生成器处理大文件实战：逐行读取、过滤和分批写入

311浏览收藏
文章 · python教程 | 3天前 | 日志 · 链路追踪 · Python教程 · contextvars · Python logging contextvars 日志追踪 trace_id 异步上下文

Python 日志链路追踪实战：用 contextvars 自动带上 trace_id

370浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

96次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

100次使用
Red Skill

小红书创作服务平台为小红书创作者和机构提供视频上传、数据分析、粉丝管理、创作指导等多项运营服务，助力用户解锁更多创作者专属功能，体验高效创作！

101次使用
MiMo Code

MiMo Code 是小米大模型团队开源的新一代 AI 编程助手，面向开发者提供代码理解、生成与辅助开发能力，适合作为 AI 编程工具收藏和体验。

203次使用
TRAE Work

TRAE AI IDE | 国内首款 AI 原生集成开发环境，深度集成 Doubao-1.5-pro 与 DeepSeek 模型，支持中文自然语言一键生成完整代码框架，实时预览前端效果并智能修复 BUG。首创 Builder 模式实现需求到代码的自动化开发，兼容 Windows/macOS 系统，官网下载即用。

234次使用