当前位置：首页 > 文章列表 > 文章 > python教程 > Python计算两组数据相关系数的方法

Python计算两组数据相关系数的方法

2026-05-25 21:45:52 0浏览收藏

本文深入解析了Python中计算两组数据Pearson相关系数的两种核心方法——pandas.DataFrame.corr适用于快速获取多列数值变量间的对称相关矩阵，自动忽略非数值列并灵活处理缺失值；而scipy.stats.pearsonr则专精于严格校验下的两组等长一维数据，同时返回相关系数与p值，是统计显著性分析的可靠选择；文章不仅厘清二者在NaN处理、输入要求、错误行为和性能表现上的关键差异，还通过典型示例和常见踩坑场景（如混用导致结果不一致、类型不匹配、静默失败等）帮助读者精准选型、避坑提效。

如何在Python中计算两组数据的相关系数_利用corr函数计算Pearson系数

直接用 pandas.DataFrame.corr 或 scipy.stats.pearsonr，但二者行为不同：前者默认处理整个 DataFrame 的列间关系，后者严格计算两组一维数据的 Pearson 相关系数和 p 值。

用 `pandas.DataFrame.corr` 计算多列间的 Pearson 系数

适合已有表格结构（如 CSV 加载后的 pd.DataFrame），想快速看所有数值列两两之间的相关性。

默认只对数值列生效，非数值列（如字符串、时间戳）自动被忽略
参数 method='pearson' 是默认值，可省略；也可设为 'spearman' 或 'kendall'
返回的是对称矩阵（DataFrame），对角线恒为 1.0，df.corr().iloc[0, 1] 就是第 0 列和第 1 列的 Pearson 系数
若含缺失值（NaN），默认用 pairwise 删除法（每对列单独删 NaN 后计算），不是全局删行

示例：

import pandas as pd
df = pd.DataFrame({'x': [1, 2, 3, 4], 'y': [2, 4, 6, 8], 'z': [1, 0, 1, 0]})
print(df.corr(method='pearson'))

用 `scipy.stats.pearsonr` 精确计算两个数组的 Pearson 系数

当你明确只有两组等长的一维数据（比如两个 list、numpy.ndarray 或 pandas.Series），且需要 p 值做显著性判断时，必须用这个。

输入必须是长度相等的一维序列，否则报错 ValueError: The input must be one-dimensional.
会自动剔除成对的 NaN（即两个数组同一位置都是 np.nan 才跳过），但不处理单边 NaN —— 那会直接报错
返回元组：(r_value, p_value)，其中 r_value 就是 Pearson 系数，范围 [-1, 1]
如果输入含无穷值（inf）或方差为 0（所有值相同），会返回 (nan, nan) 或警告

示例：

from scipy.stats import pearsonr
x = [1, 2, 3, 4]
y = [2, 4, 6, 8]
r, p = pearsonr(x, y)
print(f"r={r:.3f}, p={p:.3f}")  # r=1.000, p=0.000

常见错误：混用 `corr` 和 `pearsonr` 导致结果不一致

最常踩的坑是拿 df['col_a'].corr(df['col_b']) 和 pearsonr(df['col_a'], df['col_b']) 对比，发现数值微小差异甚至报错 —— 这通常是因为：

df['col_a'].corr(...) 内部调用的是 numpy.corrcoef，对 NaN 处理策略与 pearsonr 不完全一致
若某列含 object 类型（比如混合了数字和字符串），df['col'].corr() 可能静默失败或返回 NaN，而 pearsonr 会直接抛 TypeError
用 df.corr() 得到矩阵后取值，误用了 .loc 但列名类型不匹配（比如列是 int 而不是 str），导致 KeyError

性能与兼容性注意点

小数据（

df.corr() 在 float64 上优化较好，但若 DataFrame 含大量非数值列，预处理开销明显
pearsonr 对输入做较多校验（如检查方差、是否一维），纯数值数组下比手写 np.corrcoef 稍慢，但胜在结果带 p 值
Python 3.9+、pandas ≥ 1.5、scipy ≥ 1.8 是较稳妥的组合；旧版本中 pearsonr 对全零数组可能崩溃，新版本已修复

真正容易被忽略的是：相关系数只能反映线性趋势强度，不等于因果；且对异常值极度敏感 —— 一个离群点就能让 r 从 0.2 拉到 0.8，动手前先画个散点图。

以上就是《Python计算两组数据相关系数的方法》的详细内容，更多关于的资料请关注golang学习网公众号！

Splash开启SmartSeek功能详解

上一篇: Splash开启SmartSeek功能详解

下一篇: Win11游戏模式怎么开？性能设置全攻略

查看更多

最新文章

文章 · python教程 | 21小时前 | 日志 · 排查 · python · logging · Python logging handler 日志排查日志重复 propagate

Python logging 日志重复打印怎么办：从 Handler 叠加到 propagate 一步步排查

299浏览收藏
文章 · python教程 | 1天前 | 正则表达式 · python · 数据处理 · 日志分析 · Python教程 · Python 正则表达式日志解析命名分组接口统计错误行处理

Python 正则解析日志实战：命名分组、错误行兜底和接口统计

308浏览收藏
文章 · python教程 | 2天前 | 文件处理 · 标准库 · 配置管理 · python · 原子写入 · Python 配置文件 TempFile os.replace 原子写文件

Python 原子写配置文件实战：tempfile 和 os.replace 防止半截文件

209浏览收藏
文章 · python教程 | 2天前 | 标准库 · python · 日志分析 · TopK · heapq · Python counter heapq TopK 日志统计

Python heapq 统计日志 TopK 实战：大文件里找出高频接口

329浏览收藏
文章 · python教程 | 2天前 | 标准库 · Python教程 · 自动化脚本 · zipfile · Python 文件过滤标准库 zipfile 压缩包批量打包

Python zipfile 批量打包实战：保留目录结构、过滤临时文件和写入校验

437浏览收藏
文章 · python教程 | 2天前 | 图片处理 · pillow · webp · Python教程 · 批量压缩 · Python webp 图片压缩批量处理图片优化 Pillow

Python Pillow 图片批量压缩实战：限制宽度、输出 WebP 和校验清晰度

299浏览收藏
文章 · python教程 | 3天前 | 标准库 · 命令行 · python · 软件教程 · 工具开发 · Python 命令行工具参数校验 argparse 子命令配置合并

Python argparse 命令行工具实战：子命令、参数校验和配置合并

241浏览收藏
文章 · python教程 | 3天前 | csv · python · 数据处理 · 后端开发 · 批量导入 · Python 批处理数据校验事务提交 CSV批量导入错误行回写

Python CSV 批量导入实战：分批校验、错误行回写和事务提交

204浏览收藏
文章 · python教程 | 3天前 | 配置管理 · 工程实践 · Python教程 · dataclass · Python 环境变量配置管理 dataclass 启动校验

Python dataclass 配置管理实战：默认值、环境变量覆盖和启动校验

131浏览收藏
文章 · python教程 | 3天前 | 文件处理 · Python教程 · pathlib · 自动化脚本 · Python 日志 shutil pathlib 文件归档批量整理文件

Python pathlib 批量整理文件实战：按扩展名归档和冲突重命名

166浏览收藏
文章 · python教程 | 3天前 | 文件处理 · Python教程 · 生成器 · 数据清洗 · Python 生成器内存优化逐行读取大文件处理批量写入

Python 生成器处理大文件实战：逐行读取、过滤和分批写入

311浏览收藏
文章 · python教程 | 3天前 | 日志 · 链路追踪 · Python教程 · contextvars · Python logging contextvars 日志追踪 trace_id 异步上下文

Python 日志链路追踪实战：用 contextvars 自动带上 trace_id

370浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

152次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

154次使用
Red Skill

小红书创作服务平台为小红书创作者和机构提供视频上传、数据分析、粉丝管理、创作指导等多项运营服务，助力用户解锁更多创作者专属功能，体验高效创作！

159次使用
MiMo Code

MiMo Code 是小米大模型团队开源的新一代 AI 编程助手，面向开发者提供代码理解、生成与辅助开发能力，适合作为 AI 编程工具收藏和体验。

260次使用
TRAE Work

TRAE AI IDE | 国内首款 AI 原生集成开发环境，深度集成 Doubao-1.5-pro 与 DeepSeek 模型，支持中文自然语言一键生成完整代码框架，实时预览前端效果并智能修复 BUG。首创 Builder 模式实现需求到代码的自动化开发，兼容 Windows/macOS 系统，官网下载即用。

290次使用