当前位置：首页 > 文章列表 > 文章 > python教程 > Python爬虫抓取JSON数据技巧

Python爬虫抓取JSON数据技巧

2026-05-10 11:05:46 0浏览收藏

本文深入剖析了Python爬虫抓取JSON数据的实战痛点与解决方案，不仅指出requests.get()看似简单却常因User-Agent校验、登录态缺失、加密签名或反爬机制而失败，还系统讲解了如何通过检查响应头、合理设置请求头、安全解析JSON、健壮取值、会话复用、超时控制、并发限速及日志留存等关键手段，突破403拒绝、空响应、JSONDecodeError、KeyError和频繁超时等典型困境，帮助开发者从“能跑通”迈向“稳产线”。

Python爬虫怎么抓JSON数据_API接口直接请求与response.json()字典解析

直接用 `requests.get()` 请求 API 地址就能拿到 JSON？

绝大多数情况下可以，但前提是目标接口不校验 User-Agent、不强制登录、不走前端加密签名。很多公开 API（比如 GitHub、JSONPlaceholder）确实支持裸请求；但更多生产环境接口会返回 403 或空响应体——不是代码写错了，是被服务端拒绝了。

实操建议：

先用浏览器或 curl -v 看真实响应头，确认 Content-Type 是 application/json，且状态码为 200
加基础请求头：headers={'User-Agent': 'Mozilla/5.0'}，绕过最简单的反爬
如果接口需要认证，检查文档是否要求 Authorization: Bearer xxx 或 X-API-Key 请求头
别默认用 response.json() —— 先打印 response.text[:200] 看原始内容，避免解析 HTML 或错误提示页

`response.json()` 报 `JSONDecodeError` 怎么办

这不是 Python 问题，是服务端没给你 JSON。常见原因：接口返回了重定向（302）、登录跳转页（HTML）、限流提示（纯文本）、或者字段值里混了非法 Unicode 字符。

排查步骤：

检查 response.status_code，非 200 时别急着调 .json()
打印 response.headers.get('Content-Type')，如果不是 application/json，就别强转
用 response.content 而非 response.text 查看原始字节，避免编码干扰（比如返回的是 utf-8-sig BOM 头）
实在要硬解，加 try/except json.JSONDecodeError，并把 response.content 写入临时文件人工查看

拿到字典后取值总报 `KeyError`？

API 返回结构经常动态变化：字段名大小写不一致、嵌套层级比文档深、列表为空导致 data[0] 失败、或者字段压根没返回（服务端做了字段裁剪）。硬写 resp['data']['list'][0]['title'] 极易崩。

安全取值方式：

用 .get() 链式调用：resp.get('data', {}).get('list', [{}])[0].get('title', '')
对可能为 None 或非字典的中间值做类型检查：isinstance(resp, dict)
关键字段缺失时，记录日志并跳过该条数据，别让整个爬虫停摆
别依赖 response.json() 返回的类型——有些接口会把数字返回成字符串，比如 "123" 而非 123，后续做数值计算前记得 int() 或 float()