当前位置：首页 > 文章列表 > 文章 > python教程 > 删除前缀重复行并保留最长链末尾行的Python方法，可以通过以下步骤实现：方法思路：读取所有行。按照每行的前缀进行分组。对于每个前缀组，保留最长的那一行。示例代码：fromcollectionsimportdefaultdictdefremove_prefix_duplicates(lines):groups=defaultdict(list)forlineinlines:#假设前缀是行中第一个空

删除前缀重复行并保留最长链末尾行的Python方法，可以通过以下步骤实现：方法思路：读取所有行。按照每行的前缀进行分组。对于每个前缀组，保留最长的那一行。示例代码：fromcollectionsimportdefaultdictdefremove_prefix_duplicates(lines):groups=defaultdict(list)forlineinlines:#假设前缀是行中第一个空

2026-01-11 11:30:46 0浏览收藏

珍惜时间，勤奋学习！今天给大家带来《删除前缀重复行，保留最长链末尾行的Python方法》，正文内容主要涉及到等等，如果你正在学习文章，或者是对文章有疑问，欢迎大家关注我！后面我会持续更新相关内容的，希望都能帮到正在学习的大家！

如何用Python删除具有前缀重复关系的行（保留最长连续前缀链的末尾行）

本文介绍一种Python脚本方法，用于识别并删除存在“逐行前缀包含”关系的重复行序列（如“This” → “This line” → “This line has”），仅保留每条链中最长的那行。

在文本处理中，有时我们需要清理“渐进式重复”的行——即后一行完全以前行内容为开头（前缀关系），形成类似嵌套的字符串链。例如：

This
This line 
This line has
This line has five
This line has five strings

目标不是去重（set去重只处理完全相同的行），而是识别这种前缀继承链，并仅保留每条链的最后一个（即最长）行。上述示例中，所有前4行都是第5行的真前缀，因此只输出第5行。

以下是一个健壮、简洁的实现方案：

infilename = "input.txt"  # 替换为你的输入文件路径

with open(infilename) as fin:
    # 读取所有行并去除换行符（避免因\n导致startswith判断失败）
    lines = list(map(str.rstrip, fin))

i = 0
while i < len(lines):
    # 向后扫描：只要下一行以当前行为前缀，就跳过当前行
    while i + 1 < len(lines) and lines[i + 1].startswith(lines[i]):
        i += 1
    # 此时lines[i]是当前前缀链的末端（最长行），输出它
    print(lines[i])
    i += 1

✅ 关键逻辑说明：

使用 str.startswith() 判断前缀关系，天然支持空字符串和边界情况；
外层 while 遍历每一“链起点”，内层 while 快进至该链终点；
每次循环只输出链尾，不输出中间任何前缀行。

⚠️ 注意事项：

输入行必须严格按前缀顺序排列（如示例所示）。若顺序混乱（如“This line has”出现在“This”之前），该算法将失效；如需鲁棒性更强的处理（如任意顺序下找最长非前缀子集），需改用排序+集合筛法，但复杂度上升；
rstrip() 是必需的——否则换行符会影响 startswith 判断；
若需写入文件而非打印，将 print(lines[i]) 替换为 outfile.write(lines[i] + '\n') 即可（注意手动补回换行符）。

该方法时间复杂度为 O(n×m)，其中 n 为行数、m 为平均行长度，适用于常规日志或配置文本清洗场景，简洁高效，无需额外依赖。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《删除前缀重复行并保留最长链末尾行的Python方法，可以通过以下步骤实现：方法思路：读取所有行。按照每行的前缀进行分组。对于每个前缀组，保留最长的那一行。示例代码：fromcollectionsimportdefaultdictdefremove_prefix_duplicates(lines):groups=defaultdict(list)forlineinlines:#假设前缀是行中第一个空格之前的部分prefix=line.split('',1)[0]groups[prefix].append(line)#保留每个前缀组中最长的行result=[]forgroupingroups.values():longest_line=max(group,key=len)result.append(longest_line)returnresult#示例使用lines=["applepie","appletart","bananabread","applecake","orangejuice","bananasmoothie"]filtered_lines=remove_prefix_duplicates(lines)forlineinfiltered_lines:print(line)输出结果：applecakebananasmoothieorangejuice说明：该方法假设“前缀”是行中第一个空格之前的内容（例如"apple"是"applepie"的前缀）。如果你的“前缀”定义不同（》文章吧，也可关注golang学习网公众号了解相关技术文章。