Python怎么将多个文本文件内容合并到一个文件_利用fileinput模块高效拼接
小伙伴们有没有觉得学习文章很有意思?有意思就对了!今天就给大家带来《Python怎么将多个文本文件内容合并到一个文件_利用fileinput模块高效拼接》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!
fileinput.input() 更适合批量读取,因其自动管理文件打开/关闭、流式逐行处理避免内存溢出和句柄耗尽;返回可迭代对象而非列表,支持跨文件无缝读取,并可通过 fileinput.filename() 和 isfirstline() 获取来源文件信息。

fileinput.input() 为什么比手动 open() 更适合批量读取
直接用 fileinput.input() 处理多个文件,核心优势是它内部自动按顺序打开、逐行读取、及时关闭每个文件,避免手动管理文件句柄带来的内存泄漏或 Too many open files 错误。尤其当文件数上百、单个文件又较大时,fileinput 的流式处理不会把所有内容一次性载入内存。
常见错误是误以为 fileinput.input() 返回的是字符串列表——它实际返回一个可迭代对象,每次 yield 一行(含换行符),和 for line in open(...) 行为一致,但跨文件无缝。
- 必须传入文件路径列表,如
fileinput.input(['a.txt', 'b.txt']);传字符串(如'*.txt')不会自动 glob,需先用glob.glob() - 默认不跳过空行或注释,需要自己判断
line.strip() - 若某文件不存在,
fileinput默认报错退出;加参数openhook=fileinput.hook_encoded('utf-8')不能解决路径不存在问题,得提前校验
合并时如何保留原始文件名作为分隔标识
很多场景需要知道某段内容来自哪个文件,比如日志归档或调试追踪。fileinput.filename() 在进入新文件时立即更新,配合 fileinput.isfirstline() 就能精准插入场标记。
注意:不能在循环外调用 fileinput.filename(),此时它返回 None;也不能依赖 fileinput.lineno() 做全局行号,它统计的是已读总行数,不是当前文件内行号。
- 每次检测到
fileinput.isfirstline()为True,就写入一行f'=== {fileinput.filename()} ===\n' - 若想跳过首文件的分隔符,可加计数器,从第二次切换文件开始插入
- 编码不一致时(如部分 ANSI、部分 UTF-8),
fileinput默认用系统编码读取,容易出UnicodeDecodeError;务必显式指定openhook=fileinput.hook_encoded('utf-8'),并捕获异常做 fallback
写入目标文件时为何不能直接用 fileinput.input() 配合 print()
print() 默认输出到 sys.stdout,不是目标文件。常见误操作是写成 for line in fileinput.input(files): print(line, file=out),看似合理,但 line 末尾自带 \n,而 print() 又加一次换行,导致空行翻倍。
更隐蔽的问题是:如果目标文件路径和某个源文件相同,且没加 inplace=False(默认是 False,安全),但有人会误设 inplace=True ——这会让 fileinput 把输入文件当场重写,彻底破坏源数据。
- 正确做法是单独打开输出文件,用
.write(line)(不额外换行)或print(line, end='', file=out) - 输出文件建议用
encoding='utf-8'显式指定,避免 Windows 下默认cp1252写乱码 - 合并大文件时,别用
out.write(''.join(all_lines)),那会把全部内容加载进内存;坚持流式for line in ...: out.write(line)
遇到编码错误怎么安全跳过或替换
混合来源的文本常含 GBK、ISO-8859-1 等编码,fileinput.hook_encoded() 只支持单一编码。硬设 errors='ignore' 会丢字,errors='replace' 插入 ,但至少不中断。
真正健壮的做法是放弃 fileinput 的统一编码入口,改用外层 try/except 包裹每个文件的手动打开逻辑——虽然代码略长,但控制粒度更细。
- 用
glob.glob('*.log')获取路径列表后,对每个path单独try: open(path, encoding='utf-8') ... except UnicodeDecodeError: open(path, encoding='gbk', errors='replace') fileinput本身不提供 per-file 编码切换能力,这点文档没明说,但实测无效- 如果必须用
fileinput,至少加mode='r'和openhook=fileinput.hook_encoded('utf-8', errors='replace'),这是它唯一支持的 error handling 方式
真正麻烦的从来不是“能不能拼”,而是“拼错之后要不要重跑”。路径通配遗漏、编码混杂、权限不足、磁盘满——这些不会报语法错误,但会让输出文件缺段落、乱码或截断。上线前务必用小样本验证分隔逻辑和编码容错行为。
今天关于《Python怎么将多个文本文件内容合并到一个文件_利用fileinput模块高效拼接》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!
选择器优先级不生效怎么办_分析层叠顺序和来源权重
- 上一篇
- 选择器优先级不生效怎么办_分析层叠顺序和来源权重
- 下一篇
- Python Selenium操作Cookie的方法
-
- 文章 · python教程 | 24分钟前 |
- Python代码质量如何关联测试_将pytest集成到flake8检查流程中
- 425浏览 收藏
-
- 文章 · python教程 | 38分钟前 |
- 如何用Python自动化备份MySQL数据库文件_调用mysqldump命令
- 206浏览 收藏
-
- 文章 · python教程 | 41分钟前 |
- Python如何实现文件内容的加解密存储_通过cryptography库
- 196浏览 收藏
-
- 文章 · python教程 | 46分钟前 |
- Python 实现限流算法示例
- 156浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- 如何在正则表达式中使用预定义的字符类?
- 430浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python Selenium操作Cookie的方法
- 374浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python怎么将多个文本文件内容合并到一个文件_利用fileinput模块高效拼接
- 298浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- PythonDjango进阶开发教程_完整网站架构与功能实现
- 462浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- pipenv如何解决依赖冲突问题_使用lock文件锁定生产环境版本
- 205浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python中Scikit-learn如何进行层次聚类_使用AgglomerativeClustering
- 267浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- 为什么Python异步程序在Windows上连接数受限_通过ProactorEventLoop解决
- 460浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python 3.11的缓存机制如何工作_内置函数Lookup性能提升分析
- 403浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 4450次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 4803次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 4683次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 6473次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 5055次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览

