当前位置：首页 > 文章列表 > 文章 > python教程 > Python爬虫怎么下载图片_读取response.content二进制数据写入jpg文件保存

Python爬虫怎么下载图片_读取response.content二进制数据写入jpg文件保存

2026-05-05 08:20:32 0浏览收藏

珍惜时间，勤奋学习！今天给大家带来《Python爬虫怎么下载图片_读取response.content二进制数据写入jpg文件保存》，正文内容主要涉及到等等，如果你正在学习文章，或者是对文章有疑问，欢迎大家关注我！后面我会持续更新相关内容的，希望都能帮到正在学习的大家！

必须用"wb"模式写入response.content，否则报错或乱码；requests.get需设timeout防卡死；下载前须校验status_code和Content-Type；文件名要解码清洗并确保路径存在。

response.content 写入文件前必须用二进制模式打开

直接 f.write(response.content) 却用文本模式（"w"）打开文件，会报 TypeError: a bytes-like object is required, not 'str' 或写入乱码。Python 严格区分文本和二进制 I/O，图片是纯二进制数据，文件句柄必须匹配。

✅ 正确：用 "wb" 模式打开文件 —— open("a.jpg", "wb")
❌ 错误：用 "w"、"a"、"wt" 等任何带文本语义的模式
注意：Windows 下若误用 "w"，还可能因自动换行符转换（\n → \r\n）损坏 JPG 文件头，导致图片打不开

requests.get() 要加 timeout，否则卡死风险高

爬虫批量下载图片时，某个 URL 响应慢或挂掉，requests.get() 默认无限等待，整个程序就停在那里。这不是 bug，是默认行为，但实际中几乎总是要改。

✅ 推荐写法：requests.get(url, timeout=(3, 7)) —— 连接最多等 3 秒，读取最多等 7 秒
❌ 不设 timeout，遇到 DNS 失败、服务器无响应等情况，线程/进程会长时间阻塞
如果用 timeout=5（单数字），它只限制总耗时，不区分连接与读取，容易在慢连快传场景下误超时

保存前务必检查 response.status_code 和 Content-Type

不是所有 HTTP 200 响应都真返回了图片；有些网站返回 HTML 登录页、404 页面或 JSON 错误，但状态码仍是 200（比如反爬重定向到提示页）。光看 status_code == 200 不够。

✅ 至少加两层判断：if response.status_code == 200 and "image/" in response.headers.get("Content-Type", "")
⚠️ 注意：Content-Type 可能是 "image/jpeg"、"image/png"、甚至大小写混杂或带参数（如 "image/jpg; charset=utf-8"），用 in 比全等更鲁棒
? 小技巧：如果 header 缺失 Content-Type，可 fallback 用 imghdr.what(None, response.content)（需 import imghdr）粗略检测二进制是否为常见图片格式

文件名含特殊字符或路径不存在会导致写入失败

从 URL 提取文件名（比如 url.split("/")[-1]）直接当本地路径用，大概率出问题：URL 里可能有 %20、中文、?、&，或者路径层级根本不存在。

✅ 安全做法：用 urllib.parse.unquote() 解码，再用 re.sub(r"[^a-zA-Z0-9._-]", "_", filename) 清洗非法字符
✅ 创建目录：用 os.makedirs(os.path.dirname(save_path), exist_ok=True)，避免因子目录不存在而抛 FileNotFoundError
⚠️ 注意：Windows 对文件名长度、CON/AUX 等保留名敏感，简单替换比硬扛更稳妥

事情说清了就结束。最常漏的是 timeout 和 Content-Type 校验 —— 表面能跑通，一上量就批量下空图或卡死。

今天关于《Python爬虫怎么下载图片_读取response.content二进制数据写入jpg文件保存》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！