当前位置:首页 > 文章列表 > 文章 > python教程 > Polars列表展开与转换技巧详解

Polars列表展开与转换技巧详解

2025-10-26 12:06:30 0浏览 收藏

文章小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《Polars列表列转换与展开技巧》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!


Polars DataFrame中列表列的巧妙转换与展开

本教程详细介绍了如何利用Polars高效地将包含列表的宽格式DataFrame转换为长格式,并同时将列表元素展开为独立的列。通过结合`unpivot`、`list.to_struct`和`unnest`等核心操作,读者将学会如何优雅地重塑数据,实现从原始的列名-列表值结构到Name-Value0/Value1/Value2等新列的转换,从而简化复杂的数据清洗和分析任务。

Polars中复杂列表列的重塑与展开

在数据处理中,我们经常会遇到包含列表类型数据的DataFrame,并且需要将其从宽格式转换为长格式,同时将列表中的元素展开成独立的列。Polars作为一款高性能的DataFrame库,提供了强大且富有表达力的API来应对这类挑战。本文将详细介绍如何通过一系列链式操作,实现对Polars DataFrame中列表列的特定方式转换。

初始数据结构与目标

假设我们有一个Polars DataFrame,其结构如下,其中"foo"和"bar"列都包含整数列表:

import polars as pl

df = pl.DataFrame({
    "foo": [[1, 2, 3], [7, 8, 9]],
    "bar": [[4, 5, 6], [1, 0, 1]]
})

print(df)
# 输出:
# shape: (2, 2)
# ┌───────────┬───────────┐
# │ foo       ┆ bar       │
# │ ---       ┆ ---       │
# │ list[i64] ┆ list[i64] │
# ╞═══════════╪═══════════╡
# │ [1, 2, 3] ┆ [4, 5, 6] │
# │ [7, 8, 9] ┆ [1, 0, 1] │
# └───────────┴───────────┘

我们的目标是将其转换为以下结构:

shape: (4, 4)
┌──────┬────────┬────────┬────────┐
│ Name ┆ Value0 ┆ Value1 ┆ Value2 │
│ ---  ┆ ---    ┆ ---    │ ---    │
│ str  ┆ i64    ┆ i64    ┆ i64    │
╞══════╪════════╪════════╪════════╡
│ foo  ┆ 1      ┆ 2      ┆ 3      │
│ foo  ┆ 7      ┆ 8      ┆ 9      │
│ bar  ┆ 4      ┆ 5      ┆ 6      │
│ bar  ┆ 0      ┆ 1      ┆ 1      │
└──────┴────────┴────────┴────────┘

这个转换涉及到两个主要步骤:首先,将列名("foo", "bar")转换为一个名为"Name"的新列,并将它们对应的值放入一个名为"value"的新列中,即从宽格式到长格式的转换。其次,将"value"列中的列表元素展开为独立的列("Value0", "Value1", "Value2")。

转换步骤详解

Polars提供了一系列强大的表达式和方法来高效地完成这个转换。我们将分步进行说明。

步骤一:使用 unpivot 进行列名转换与长格式化

unpivot 方法用于将DataFrame的指定列(或所有非id_vars列)从宽格式转换为长格式。它会将列名转换为一个新列的行值,并将这些列的原始值放入另一个新列中。

在这个例子中,我们没有指定id_vars,所以所有列("foo", "bar")都将被unpivot。variable_name="Name"参数指定了存储原始列名的新列的名称。默认情况下,值列的名称是value。

# 初始DataFrame
# df = pl.DataFrame({
#     "foo": [[1, 2, 3], [7, 8, 9]],
#     "bar": [[4, 5, 6], [1, 0, 1]]
# })

df_unpivoted = df.unpivot(variable_name="Name")
print(df_unpivoted)
# 输出:
# shape: (4, 2)
# ┌──────┬───────────┐
# │ Name ┆ value     │
# │ ---  ┆ ---       │
# │ str  ┆ list[i64] │
# ╞══════╪═══════════╡
# │ foo  ┆ [1, 2, 3] │
# │ bar  ┆ [4, 5, 6] │
# │ foo  ┆ [7, 8, 9] │
# │ bar  ┆ [1, 0, 1] │
# └──────┴───────────┘

现在,我们有了一个Name列(包含原始列名)和一个value列(包含原始列表数据)。

步骤二:使用 list.to_struct 将列表转换为结构体

在Polars中,要将列表的元素展开为单独的列,通常需要先将列表转换为结构体(Struct)。list.to_struct() 方法正是为此目的设计的。它将列表中的每个元素映射到结构体的一个字段。

fields 参数允许我们自定义结构体中字段的名称。在这里,我们使用一个lambda函数 lambda x: f"Value{x}" 来为每个列表元素生成字段名,例如"Value0", "Value1", "Value2"等。

df_struct = df_unpivoted.with_columns(
    pl.col("value").list.to_struct(fields=lambda x: f"Value{x}")
)
print(df_struct)
# 输出:
# shape: (4, 2)
# ┌──────┬───────────────────────────┐
# │ Name ┆ value                     │
# │ ---  ┆ ---                       │
# │ str  ┆ struct[3]                 │
# ╞══════╪═══════════════════════════╡
# │ foo  ┆ {1,2,3}                   │
# │ bar  ┆ {4,5,6}                   │
# │ foo  ┆ {7,8,9}                   │
# │ bar  ┆ {1,0,1}                   │
# └──────┴───────────────────────────┘

现在,value列已经从list[i64]类型变为了struct[3]类型,其中包含了三个字段,默认名称为field_0, field_1, field_2(或者根据我们lambda函数生成的名称)。

步骤三:使用 unnest 展开结构体列

最后一步是使用 unnest 方法将结构体列展开为独立的列。只需指定要unnest的列名,Polars就会自动将其内部的字段提升为DataFrame的顶层列。

df_final = df_struct.unnest("value")
print(df_final)
# 输出:
# shape: (4, 4)
# ┌──────┬────────┬────────┬────────┐
# │ Name ┆ Value0 ┆ Value1 ┆ Value2 │
# │ ---  ┆ ---    ┆ ---    ┆ ---    │
# │ str  ┆ i64    ┆ i64    ┆ i64    │
# ╞══════╪════════╪════════╪════════╡
# │ foo  ┆ 1      ┆ 2      ┆ 3      │
# │ bar  ┆ 4      ┆ 5      ┆ 6      │
# │ foo  ┆ 7      ┆ 8      ┆ 9      │
# │ bar  ┆ 1      ┆ 0      ┆ 1      │
# └──────┴────────┴────────┴────────┘

至此,我们成功地将原始DataFrame转换成了目标格式。

完整代码示例

将上述三个步骤链式组合起来,我们可以得到一个简洁高效的解决方案:

import polars as pl

# 原始DataFrame
df = pl.DataFrame({
    "foo": [[1, 2, 3], [7, 8, 9]],
    "bar": [[4, 5, 6], [1, 0, 1]]
})

# 链式操作实现转换
output_df = (
    df
    .unpivot(variable_name="Name")
    .with_columns(pl.col("value").list.to_struct(fields=lambda x: f"Value{x}"))
    .unnest("value")
)

print(output_df)

注意事项与总结

  • 性能优势: Polars的表达式系统和惰性计算(当使用scan_csv等时)使得这些复杂的数据转换操作在内存和CPU效率上都表现出色。
  • 灵活性: fields参数在list.to_struct中非常灵活,可以根据具体需求动态生成列名。如果列表长度不固定,list.to_struct会填充null值以保持结构体的一致性。
  • 错误处理: 确保列表中的元素类型一致,否则在转换为结构体时可能会遇到类型不匹配的问题。
  • 可读性: 链式操作虽然强大,但在处理非常复杂的转换时,适当拆分为多个步骤或添加注释可以提高代码的可读性。

通过掌握unpivot、list.to_struct和unnest这三个关键操作,您将能够高效地在Polars中处理和重塑包含列表的复杂DataFrame,从而解锁更多数据分析的可能性。

终于介绍完啦!小伙伴们,这篇关于《Polars列表展开与转换技巧详解》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识,快来关注吧!

Win10系统版本号查看方法Win10系统版本号查看方法
上一篇
Win10系统版本号查看方法
Golang可变参数函数怎么用
下一篇
Golang可变参数函数怎么用
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    2121次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    1962次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    1907次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    2112次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    2096次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码