当前位置：首页 > 文章列表 > 文章 > python教程 > Python爬虫批量下载PDF教程

Python爬虫批量下载PDF教程

2026-05-16 10:19:20 0浏览收藏

本文深入解析了Python爬虫批量下载PDF文件的核心难点与实战方案：从精准提取各类隐藏PDF链接（如带参数、重定向、大小写混用或动态触发的URL），到通过MIME类型校验和绝对路径补全确保链接有效性；从严格使用二进制模式保存避免文件损坏，到通过真实请求头、限速并发、智能退避等策略规避反爬封禁；最终强调——真正关键的不是正则匹配技巧，而是用HEAD预检、Content-Type验证和小样本采样层层过滤“假阳性”链接，从而实现稳定、鲁棒、生产级的PDF批量采集。

如何使用Python爬虫批量下载网页中的PDF文档_利用re正则表达式匹配下载链接

为什么直接用 `re.findall` 匹配 `href` 容易漏掉 PDF 链接

网页中 PDF 链接不一定以 .pdf 结尾，常见情况包括：?file=report.pdf、&id=123、带重定向的短链、大小写混合（.PDF 或 .Pdf），甚至用 onclick="window.open('xxx.pdf')" 动态触发。单纯匹配 r'href="([^"]+\.pdf)"' 会跳过这些。

更稳妥的做法是先提取所有可能的 URL 字符串，再统一用后缀 + MIME 类型线索过滤：

用 re.findall(r'href\s*=\s*["\']([^"\']+)["\']', html) 和 re.findall(r"src\s*=\s*['\"]([^'\"]+)['\"]", html) 覆盖基础属性
额外捕获 onclick、data-url、download 属性里的值，例如：re.findall(r"download\s*=\s*['\"]([^'\"]+)['\"]", html)
对每个候选链接，用 url.lower().endswith(('.pdf', '.pdf?')) 判断，比正则更鲁棒

如何用 `requests` 正确下载并保存 PDF，避免乱码或截断

PDF 是二进制文件，必须以 bytes 模式写入，且不能依赖响应体的 text 属性——否则会触发默认 UTF-8 解码，导致文件损坏。

关键点：

使用 response.content（不是 response.text）获取原始字节
检查 response.headers.get('content-type')，确认是否为 application/pdf 或 binary/octet-stream，排除 HTML 伪装成 PDF 的情况
用 os.path.basename(urlparse(url).path) 提取文件名，若为空则生成随机名，如 f"doc_{int(time.time())}.pdf"
保存前确保目录存在：os.makedirs(save_dir, exist_ok=True)

示例片段：

import requests
from urllib.parse import urlparse
import os
def download_pdf(url, save_dir="pdfs"):
os.makedirs(save_dir, exist_ok=True)
try:
r = requests.get(url, timeout=10)
r.raise_forstatus()
if 'application/pdf' not in r.headers.get('content-type', ''):
return False
fname = os.path.basename(urlparse(url).path) or f"doc{int(time.time())}.pdf"
with open(os.path.join(save_dir, fname), "wb") as f:
f.write(r.content)
return True
except Exception as e:
print(f"Failed {url}: {e}")
return False

为什么批量下载时频繁被封 IP，以及怎么缓解

目标网站通常通过请求频率、User-Agent 单一、缺少 Referer 等特征识别爬虫。单纯加 time.sleep(1) 不够，还可能因并发连接耗尽本地端口或触发 CDN 限流。

实际有效手段：

设置真实浏览器 User-Agent，例如：headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"}
每次请求附带 Referer（设为该 PDF 所在页面 URL），模拟真实点击路径
限制最大并发数：用 concurrent.futures.ThreadPoolExecutor(max_workers=3)，而非无节制 for url in urls: download_pdf(url)
对 429/503 响应主动退避：time.sleep(5 * (2 ** retry_count))

PDF 链接是相对路径时，如何自动补全为绝对 URL

从 HTML 提取的 href="/files/report.pdf" 或 href="docs/yearly.pdf" 无法直接下载，必须转成完整 URL。手动拼接容易出错，尤其当页面 URL 含查询参数或锚点时。

正确做法是用 urllib.parse.urljoin：

传入原始页面 URL（如 "https://example.com/reports/"）和相对链接（如 "../data/2023.pdf"）
它会按 RFC 3986 规则处理 ..、.、协议继承、路径截断等边界情况
不要用字符串拼接或正则替换，比如 base_url + href 在 base_url 缺少结尾 / 时会产出 https://a.com/bc.pdf 这种错误路径

示例：

from urllib.parse import urljoin
page_url = "https://example.com/reports/index.html"
relative_link = "../pdfs/summary.pdf"
abs_url = urljoin(page_url, relative_link)  # → "https://example.com/pdfs/summary.pdf"

真正难的不是写出正则，而是判断哪个链接“确实指向一个可访问的 PDF 文件”。很多看似匹配的链接返回 404、跳转到登录页、或内容其实是 HTML 错误页——得靠 HEAD 请求预检 + Content-Type 校验 + 小范围 GET 采样，才能筛掉这批“假阳性”。

本篇关于《Python爬虫批量下载PDF教程》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于文章的相关知识，请关注golang学习网公众号！