Polars列表展开与转换技巧详解
文章小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《Polars列表列转换与展开技巧》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!

本教程详细介绍了如何利用Polars高效地将包含列表的宽格式DataFrame转换为长格式,并同时将列表元素展开为独立的列。通过结合`unpivot`、`list.to_struct`和`unnest`等核心操作,读者将学会如何优雅地重塑数据,实现从原始的列名-列表值结构到Name-Value0/Value1/Value2等新列的转换,从而简化复杂的数据清洗和分析任务。
Polars中复杂列表列的重塑与展开
在数据处理中,我们经常会遇到包含列表类型数据的DataFrame,并且需要将其从宽格式转换为长格式,同时将列表中的元素展开成独立的列。Polars作为一款高性能的DataFrame库,提供了强大且富有表达力的API来应对这类挑战。本文将详细介绍如何通过一系列链式操作,实现对Polars DataFrame中列表列的特定方式转换。
初始数据结构与目标
假设我们有一个Polars DataFrame,其结构如下,其中"foo"和"bar"列都包含整数列表:
import polars as pl
df = pl.DataFrame({
"foo": [[1, 2, 3], [7, 8, 9]],
"bar": [[4, 5, 6], [1, 0, 1]]
})
print(df)
# 输出:
# shape: (2, 2)
# ┌───────────┬───────────┐
# │ foo ┆ bar │
# │ --- ┆ --- │
# │ list[i64] ┆ list[i64] │
# ╞═══════════╪═══════════╡
# │ [1, 2, 3] ┆ [4, 5, 6] │
# │ [7, 8, 9] ┆ [1, 0, 1] │
# └───────────┴───────────┘我们的目标是将其转换为以下结构:
shape: (4, 4) ┌──────┬────────┬────────┬────────┐ │ Name ┆ Value0 ┆ Value1 ┆ Value2 │ │ --- ┆ --- ┆ --- │ --- │ │ str ┆ i64 ┆ i64 ┆ i64 │ ╞══════╪════════╪════════╪════════╡ │ foo ┆ 1 ┆ 2 ┆ 3 │ │ foo ┆ 7 ┆ 8 ┆ 9 │ │ bar ┆ 4 ┆ 5 ┆ 6 │ │ bar ┆ 0 ┆ 1 ┆ 1 │ └──────┴────────┴────────┴────────┘
这个转换涉及到两个主要步骤:首先,将列名("foo", "bar")转换为一个名为"Name"的新列,并将它们对应的值放入一个名为"value"的新列中,即从宽格式到长格式的转换。其次,将"value"列中的列表元素展开为独立的列("Value0", "Value1", "Value2")。
转换步骤详解
Polars提供了一系列强大的表达式和方法来高效地完成这个转换。我们将分步进行说明。
步骤一:使用 unpivot 进行列名转换与长格式化
unpivot 方法用于将DataFrame的指定列(或所有非id_vars列)从宽格式转换为长格式。它会将列名转换为一个新列的行值,并将这些列的原始值放入另一个新列中。
在这个例子中,我们没有指定id_vars,所以所有列("foo", "bar")都将被unpivot。variable_name="Name"参数指定了存储原始列名的新列的名称。默认情况下,值列的名称是value。
# 初始DataFrame
# df = pl.DataFrame({
# "foo": [[1, 2, 3], [7, 8, 9]],
# "bar": [[4, 5, 6], [1, 0, 1]]
# })
df_unpivoted = df.unpivot(variable_name="Name")
print(df_unpivoted)
# 输出:
# shape: (4, 2)
# ┌──────┬───────────┐
# │ Name ┆ value │
# │ --- ┆ --- │
# │ str ┆ list[i64] │
# ╞══════╪═══════════╡
# │ foo ┆ [1, 2, 3] │
# │ bar ┆ [4, 5, 6] │
# │ foo ┆ [7, 8, 9] │
# │ bar ┆ [1, 0, 1] │
# └──────┴───────────┘现在,我们有了一个Name列(包含原始列名)和一个value列(包含原始列表数据)。
步骤二:使用 list.to_struct 将列表转换为结构体
在Polars中,要将列表的元素展开为单独的列,通常需要先将列表转换为结构体(Struct)。list.to_struct() 方法正是为此目的设计的。它将列表中的每个元素映射到结构体的一个字段。
fields 参数允许我们自定义结构体中字段的名称。在这里,我们使用一个lambda函数 lambda x: f"Value{x}" 来为每个列表元素生成字段名,例如"Value0", "Value1", "Value2"等。
df_struct = df_unpivoted.with_columns(
pl.col("value").list.to_struct(fields=lambda x: f"Value{x}")
)
print(df_struct)
# 输出:
# shape: (4, 2)
# ┌──────┬───────────────────────────┐
# │ Name ┆ value │
# │ --- ┆ --- │
# │ str ┆ struct[3] │
# ╞══════╪═══════════════════════════╡
# │ foo ┆ {1,2,3} │
# │ bar ┆ {4,5,6} │
# │ foo ┆ {7,8,9} │
# │ bar ┆ {1,0,1} │
# └──────┴───────────────────────────┘现在,value列已经从list[i64]类型变为了struct[3]类型,其中包含了三个字段,默认名称为field_0, field_1, field_2(或者根据我们lambda函数生成的名称)。
步骤三:使用 unnest 展开结构体列
最后一步是使用 unnest 方法将结构体列展开为独立的列。只需指定要unnest的列名,Polars就会自动将其内部的字段提升为DataFrame的顶层列。
df_final = df_struct.unnest("value")
print(df_final)
# 输出:
# shape: (4, 4)
# ┌──────┬────────┬────────┬────────┐
# │ Name ┆ Value0 ┆ Value1 ┆ Value2 │
# │ --- ┆ --- ┆ --- ┆ --- │
# │ str ┆ i64 ┆ i64 ┆ i64 │
# ╞══════╪════════╪════════╪════════╡
# │ foo ┆ 1 ┆ 2 ┆ 3 │
# │ bar ┆ 4 ┆ 5 ┆ 6 │
# │ foo ┆ 7 ┆ 8 ┆ 9 │
# │ bar ┆ 1 ┆ 0 ┆ 1 │
# └──────┴────────┴────────┴────────┘至此,我们成功地将原始DataFrame转换成了目标格式。
完整代码示例
将上述三个步骤链式组合起来,我们可以得到一个简洁高效的解决方案:
import polars as pl
# 原始DataFrame
df = pl.DataFrame({
"foo": [[1, 2, 3], [7, 8, 9]],
"bar": [[4, 5, 6], [1, 0, 1]]
})
# 链式操作实现转换
output_df = (
df
.unpivot(variable_name="Name")
.with_columns(pl.col("value").list.to_struct(fields=lambda x: f"Value{x}"))
.unnest("value")
)
print(output_df)注意事项与总结
- 性能优势: Polars的表达式系统和惰性计算(当使用scan_csv等时)使得这些复杂的数据转换操作在内存和CPU效率上都表现出色。
- 灵活性: fields参数在list.to_struct中非常灵活,可以根据具体需求动态生成列名。如果列表长度不固定,list.to_struct会填充null值以保持结构体的一致性。
- 错误处理: 确保列表中的元素类型一致,否则在转换为结构体时可能会遇到类型不匹配的问题。
- 可读性: 链式操作虽然强大,但在处理非常复杂的转换时,适当拆分为多个步骤或添加注释可以提高代码的可读性。
通过掌握unpivot、list.to_struct和unnest这三个关键操作,您将能够高效地在Polars中处理和重塑包含列表的复杂DataFrame,从而解锁更多数据分析的可能性。
终于介绍完啦!小伙伴们,这篇关于《Polars列表展开与转换技巧详解》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识,快来关注吧!
Win10系统版本号查看方法
- 上一篇
- Win10系统版本号查看方法
- 下一篇
- Golang可变参数函数怎么用
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ljg-skills
- ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
- 2121次使用
-
- MELO音乐
- MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
- 1962次使用
-
- UniScribe
- UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
- 1907次使用
-
- 剧云
- 剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
- 2112次使用
-
- 万象有声
- 万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
- 2096次使用
-
- Python监控网页状态:requests异常处理实战
- 2026-05-29 501浏览
-
- TensorFlow模型部署为API的TF Serving方法
- 2026-05-26 501浏览
-
- Python字符串编码转换:encode与decode详解
- 2026-05-16 501浏览
-
- TensorFlow裁剪无用算子方法详解
- 2026-05-15 501浏览
-
- httpx 如何设置代理认证(Proxy-Authorization)
- 2026-05-05 501浏览

