JavaStream保留最新ID去重方法
本文深入探讨了如何利用Java Stream API,特别是`Collectors.toMap`的三参数重载方法,实现对Java对象列表中重复ID数据的去重,并保留最新记录。针对日常开发中常见的,需要根据时间戳或其他字段保留唯一ID最新记录的需求,文章详细介绍了通过`Function.identity()`结合`BinaryOperator.maxBy`与自定义比较器,优雅地解决键冲突问题。通过示例代码,展示了如何将包含重复ID的`Student`对象列表,去重并按时间排序,最终转换为一个包含唯一对象且排序后的列表。掌握此方法,能有效提高Java集合数据处理效率,简化代码,提升可读性,尤其适用于处理大数据量时,保证数据准确性并优化性能。

在日常的Java开发中,我们经常会遇到需要处理包含重复数据的列表。一个常见的场景是,列表中存在多个对象拥有相同的唯一标识符(如ID),但我们希望根据某个时间字段(如创建时间、更新时间)来决定保留哪一个记录,通常是保留最新的一条。本文将深入探讨如何使用Java Stream API以一种简洁高效的方式实现这一目标。
问题场景与解决方案概述
假设我们有一个Student对象列表,每个Student对象包含一个id和一个startDatetime。我们的目标是:如果存在多个Student对象拥有相同的id,则只保留其中startDatetime最新的那一个。
Java Stream API为我们提供了强大的工具来处理集合数据。解决此问题的核心在于使用Collectors.toMap的重载版本,它允许我们定义一个合并函数来处理键冲突。
定义数据模型
首先,我们需要一个表示学生的数据模型。为了演示,我们定义一个简单的Student类:
import java.time.LocalDateTime;
import java.util.Objects; // 引入Objects用于hashCode和equals
public class Student {
private String id;
private LocalDateTime startDatetime;
public Student(String id, LocalDateTime startDatetime) {
this.id = id;
this.startDatetime = startDatetime;
}
public String getId() {
return id;
}
public LocalDateTime getStartDatetime() {
return startDatetime;
}
// 为了更好的演示和调试,建议重写toString方法
@Override
public String toString() {
return "Student{" +
"id='" + id + '\'' +
", startDatetime=" + startDatetime +
'}';
}
// 重写equals和hashCode方法,虽然在此特定场景不直接用于去重,但良好的实践
@Override
public boolean equals(Object o) {
if (this == o) return true;
if (o == null || getClass() != o.getClass()) return false;
Student student = (Student) o;
return Objects.equals(id, student.id) && Objects.equals(startDatetime, student.startDatetime);
}
@Override
public int hashCode() {
return Objects.hash(id, startDatetime);
}
}使用 Collectors.toMap 进行去重
Collectors.toMap有多个重载方法,其中一个接受三个参数:keyMapper、valueMapper和mergeFunction。这个mergeFunction是解决我们问题的关键。
- keyMapper: 定义如何从流中的元素提取键。在这里,我们将使用Student::getId作为键,因为我们希望根据id进行去重。
- valueMapper: 定义如何从流中的元素提取值。由于我们希望保留整个Student对象,所以这里可以使用Function.identity(),它表示将流中的元素本身作为值。
- mergeFunction: 这是处理键冲突(即当两个或更多元素生成相同的键时)的函数。它的签名是BinaryOperator
,接收两个相同类型的参数并返回一个相同类型的结果。我们的目标是保留startDatetime最新的学生对象。
为了实现mergeFunction,我们可以使用BinaryOperator.maxBy方法,它接受一个Comparator作为参数,并返回一个BinaryOperator,该操作符会根据比较器选择两个元素中“最大”的一个。结合Comparator.comparing,我们可以轻松地比较Student对象的startDatetime。
示例代码
import java.time.LocalDateTime;
import java.util.ArrayList;
import java.util.Comparator;
import java.util.List;
import java.util.Map;
import java.util.function.BinaryOperator;
import java.util.function.Function;
import java.util.stream.Collectors;
public class StudentDeduplicator {
public static void main(String[] args) {
// 示例数据
List students = new ArrayList<>(List.of(
new Student("1", LocalDateTime.now()), // 最新的id为1的学生
new Student("1", LocalDateTime.of(2000, 2, 1, 1, 1)),
new Student("1", LocalDateTime.of(1990, 2, 1, 1, 1)),
new Student("2", LocalDateTime.of(1990, 2, 1, 1, 1)),
new Student("3", LocalDateTime.of(2020, 5, 10, 10, 0)),
new Student("3", LocalDateTime.of(2021, 1, 1, 0, 0)) // 最新的id为3的学生
));
System.out.println("原始学生列表:");
students.forEach(System.out::println);
System.out.println("--------------------");
// 使用Stream进行去重,保留最新记录
List uniqueStudents = students.stream()
.collect(Collectors.toMap(
Student::getId, // KeyMapper: 使用Student的ID作为Map的键
Function.identity(), // ValueMapper: 将整个Student对象作为Map的值
BinaryOperator.maxBy(Comparator.comparing(Student::getStartDatetime)) // MergeFunction: 当ID冲突时,保留startDatetime最大的那个
))
.values() // 获取Map中所有的值(即去重后的Student对象)
.stream() // 将值集合转换为新的Stream
// 结果通常需要按某个顺序排列,例如按startDatetime排序
.sorted(Comparator.comparing(Student::getStartDatetime))
.toList(); // Java 16+ 使用.toList(),Java 8-15使用.collect(Collectors.toList())
System.out.println("去重并排序后的学生列表:");
uniqueStudents.forEach(System.out::println);
}
} 代码解析
- students.stream(): 创建一个Student对象的流。
- .collect(Collectors.toMap(...)): 这是核心操作。
- Student::getId: 定义了Map的键,即学生的ID。
- Function.identity(): 定义了Map的值,即Student对象本身。
- BinaryOperator.maxBy(Comparator.comparing(Student::getStartDatetime)): 这是合并函数。当遇到重复的ID时,maxBy会使用提供的Comparator来比较两个Student对象。Comparator.comparing(Student::getStartDatetime)创建了一个比较器,它根据startDatetime字段进行比较。maxBy会选择startDatetime“更大”(即更晚)的那个Student对象保留下来。
- .values(): Collectors.toMap的结果是一个Map
。.values()方法返回Map中所有值的集合(Collection ),这些值就是我们去重后保留的Student对象。 - .stream(): 将Collection
再次转换为一个流,以便后续操作。 - .sorted(Comparator.comparing(Student::getStartDatetime)): 这一步是可选的,但通常为了输出结果的可预测性,我们会对最终的列表进行排序。这里我们再次按照startDatetime进行升序排序。
- .toList(): 将流中的元素收集到一个不可变的List中。对于Java 8到Java 15,需要使用Collectors.toList()。
注意事项
- Function.identity(): 这个静态方法返回一个简单的函数,它总是返回其输入参数。在这里,它确保整个Student对象被用作Map的值。
- BinaryOperator.maxBy vs BinaryOperator.minBy: 如果你的需求是保留startDatetime最“旧”的记录,那么应该使用BinaryOperator.minBy。
- Java 版本兼容性:
- List.of(...)用于创建不可变列表(Java 9+)。
- .toList()是Java 16+的新特性,用于将Stream收集为不可变列表。在Java 8到Java 15中,你需要使用collect(Collectors.toList())。
- 性能考量: 这种方法涉及到构建一个中间的Map。对于非常大的数据集,这会占用额外的内存。然而,对于大多数常见场景,这种方法既简洁又高效。
- 线程安全性: Stream操作本身是无状态的,但如果Student对象是可变的,并且在流操作之外被修改,可能会导致意外行为。在这种场景下,Student对象通常被视为不可变或在流处理过程中不被修改。
总结
通过巧妙地运用Java Stream API中的Collectors.toMap和BinaryOperator.maxBy,我们可以以声明式且易于理解的方式解决列表去重并保留最新记录的问题。这种模式不仅适用于时间戳,也可以应用于任何需要根据某个属性进行比较并保留“最佳”记录的场景,极大地提高了代码的可读性和简洁性。掌握这种Stream操作模式,将有助于你更高效地处理Java集合数据。
本篇关于《JavaStream保留最新ID去重方法》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!
Python数据分析:Numpy高效计算技巧
- 上一篇
- Python数据分析:Numpy高效计算技巧
- 下一篇
- 在线观看完整PPT设计参考
-
- 文章 · java教程 | 21小时前 | map · 并发安全 · 缓存设计 · Java教程 · java optional concurrenthashmap computeIfAbsent Map缓存
- Java computeIfAbsent 缓存初始化实战:少写判断、避开空值和并发坑
- 236浏览 收藏
-
- 文章 · java教程 | 1天前 | Java · 异步编程 · 后端开发 · CompletableFuture · 接口聚合 · java 结果合并 completablefuture 并行调用 超时兜底
- Java CompletableFuture 多接口聚合完整流程:并行调用、超时兜底和结果合并
- 428浏览 收藏
-
- 文章 · java教程 | 1天前 | Java · 线程安全 · DateTimeFormatter · 日期处理 · 并发问题 · java 线程安全 日期格式化 threadlocal SimpleDateFormat DateTimeFormatter
- Java SimpleDateFormat 日期偶发错乱怎么办:从共享实例到线程安全一步步排查
- 481浏览 收藏
-
- 文章 · java教程 | 3天前 | http接口 · httpclient · Java教程 · 接口调试 · 超时处理 · java 接口调用 httpclient 超时控制 状态码 响应体
- Java HttpClient 调接口实战:超时、状态码和响应体这样处理
- 224浏览 收藏
-
- 文章 · java教程 | 3天前 | 时间处理 · instant · Java教程 · 时区转换 · DateTimeFormatter · java DateTimeFormatter java.time 时区处理 ZoneId INSTANT
- Java 时间与时区处理实战:Instant、ZoneId 和 DateTimeFormatter 怎么配
- 461浏览 收藏
-
- 文章 · java教程 | 3天前 | Java · Stream · 集合统计 · 分组聚合 · Collectors · java Stream Collectors groupingBy counting summarizingInt
- Java Stream 分组统计实战:groupingBy、counting 和 summarizingInt 怎么用
- 478浏览 收藏
-
- 文章 · java教程 | 4天前 | Java · 文件读取 · 异常处理 · 资源管理 · try-with-resources · java 异常处理 try-with-resources 资源关闭 AutoCloseable 文件流
- Java try-with-resources 资源关闭实战:文件流和目录扫描这样写更稳
- 268浏览 收藏
-
- 文章 · java教程 | 4天前 | Java教程 · 后端开发 · BigDecimal · 金额计算 · java 舍入 bigdecimal 浮点误差 金额计算 RoundingMode
- Java BigDecimal 金额计算实战:避免浮点误差和舍入问题
- 324浏览 收藏
-
- 文章 · java教程 | 4天前 | 异步编程 · Java教程 · 超时治理 · CompletableFuture · java 异步任务 超时处理 completablefuture orTimeout completeOnTimeout
- Java CompletableFuture 超时处理实战:orTimeout 和兜底结果怎么选
- 421浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ljg-skills
- ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
- 280次使用
-
- MELO音乐
- MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
- 297次使用
-
- UniScribe
- UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
- 268次使用
-
- 剧云
- 剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
- 439次使用
-
- 万象有声
- 万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
- 428次使用
-
- 提升Java功能开发效率的有力工具:微服务架构
- 2023-10-06 501浏览
-
- 掌握Java海康SDK二次开发的必备技巧
- 2023-10-01 501浏览
-
- 如何使用java实现桶排序算法
- 2023-10-03 501浏览
-
- Java开发实战经验:如何优化开发逻辑
- 2023-10-31 501浏览
-
- 如何使用Java中的Math.max()方法比较两个数的大小?
- 2023-11-18 501浏览

