Java Stream的distinct去重原理分析

2025-06-22 17:50

本文主要是介绍Java Stream的distinct去重原理分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《JavaStream的distinct去重原理分析》Javastream中的distinct方法用于去除流中的重复元素,它返回一个包含过滤后唯一元素的新流,该方法会根据元素的hashcode和eq...

一、distinct 的基础用法与核心特性

distinct()是 Stream API 中的有状态中间操作,用于移除流中的重复元素,其底层依赖元素的hashCode()equals()方法。用法示例:

List<Integer> numbers = Arrays.asList(1, 2, 2, 3, 4, 4);
List<Integer> unique = numbers.stream()
    .distinct()
    .collect(Collectors.toList());  // [1, 2, 3, 4]

核心特性

  • 去重逻辑基于元素的唯一性标识,而非内存地址;
  • 保持元素首次出现的顺序;
  • 属于有状态操作,处理过程中需维护已出现元素的集合。

二、distinct 的底层实现原理

1. 顺序流中的去重实现

顺序流中,distinct()通过HashSet存储已处理元素,流程如下:

  • 遍历流中的每个元素;
  • 对每个元素计算hashCode(),检查HashSet中是否存在相同哈希值的元素;
  • 若存在,进一步通过equals()比较内容,相同则过滤;
  • 若不存在,将元素添加到HashSet并保留在流中。

源码关键片段(JDK 17):

// ReferencePipeline.Java
public final Stream<P_OUT> distinct() {
    return new DistinctOps<P_OUT, P_OUT>(this);
}
 
// DistinctOps.java
@Override
public void accept(P_OUT t) {
    if (set.add(t)) {  // 调用HashSet的add方法,返回false表示重复
        down.accept(t);
    }
}

2. 并行流中的去重优化

并行流中,distinct()使用ConcurrentHashMap或分段处理提升性能:

  • 将流分割为多个子任务,每个子任务维护独立的HashSet
  • 子任务处理完成后,合并所有HashSet的结果;
  • 合并时使用HashMap去重,避免并发冲突。

并行处理示意图

+----------------+     +----------------+     +----------------+
|  子任务1: HashSet |---->|  子任务2: HashSet |---->|  合并阶段: HashMap |
|  存储元素A,B,C   |     |  存储元素B,D,E   |     |  最终结果A,B,C,D,E |
+----------------+     +----------------+     +----------------+

三、去重逻辑的核心依赖:hashCode 与 equals

1. 自定义对象的去重规则

若需对自定义对象去重,必须正确重写hashCode()equals()

class User {
    private String id;
    private String name;
    
    @Override
    public int hashCode() {
        return Objects.hash(id);  // 仅用id计算哈希值
    }
    
    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        User user = (User) o;
        return Objects.equals(id, user.id);  // 仅比较id
    }
    // 其他方法省略
}
 
// 使用示例
List<User> users = Arrays.asList(
    new User("1", "Alice"),
    new User("1", "Bob"),  // id相同,会被去重
    new User("2", "Charlie")
);
List<User> uniqueUsers = users.stream()
    .distinct()
    .collect(Collectors.toList());  // 保留两个用户

2. 常见误区:仅重写 equals 不重写 hashCode

若只重写equals,会导致去重失效,因为HashSet首先通过hashCode判断元素是否存在:

class ErrorUser {
    private String id;
    // 错误:未重写hashCode
    @Override
    public boolean equals(Object o) {
        // 正确实现equals...
    }
}
// 使用distinct时,两个id相同的ErrorUser可能因hashCode不同被视为不同元素

四、distinct android的性能影响与优化策略

1. 性能损耗的主要原因

  • 内存占用:需存储所有已出现元素,大数据集可能导致 OOM;
  • 哈希计算开销:每个元素需计算hashCode并进行哈希表查找;
  • 并行流的合并开销:多线程环境下的集合合并操作耗时。

2. 大数据集的去重优化

  • 预排序 + 相邻去重:对有序流使用distinct()效率更高,因重复元素相邻时哈希表查找次数减少
// 优化前:无序流去重
List<Integer> randomData = getRandomNumbers(1000000);
randomData.stream().distinct().count();  // 全量哈希表查找
 
// 优化后:先排序再去重
randomData.stream()
    .sorted()
    .distinct()
    .count();  // 相邻重复元素只需一次比较
  • 使用 Primitive Stream 减少装箱
// 低效:对象流装箱
Stream<Integer> boxedStream = data.stream().distinct();
 
// 高效:IntStream直接操作
IntStream primitiveStream = data.stream().mapToInt(Integer::intValue).distinct();
  • 分块处理大集合:避免一次性加载所有元素到内存
// 分块去重示例
int chunkSize = 100000;
List<Integer> result = new ArrayList<>();
for (int i = 0; i < data.size(); i += chunkSize) {
    int end = Math.min(i + chunkSize, data.size());
    List<Integer> chunk = data.subList(i, end);
    result.addAll(chunk.stream().distinct().collect(Collectors.toList()));
}
// 最后再去重一次合并结果
List<Integer> finalResult = result.stream().distinct().collect(Collectors.toList());

3. 并行流去重的参数调优

通过自定义Spliterator控制分块大小,减少合并开销:

class EfficientSpliterator implements Spliterator<Integer> {
    private final List<Integer> list;
    private int index;
    private static final int CHUNK_SIZE = 10000;  // 分块大小
    
    public EfficientSpliterator(List<Integer> list) {
        this.list = list;
        this.index = 0;
    }
    
    @Override
    public Spliterator<Integer> trySplit() {
        int size = list.size() - index;
        if (size < CHUNK_SIZE) return null;
        int splitPos = index + size / 2;
        Spliterator<Integer> spliterator = 
            new EfficientSpliterator(list.subList(index, splitPos));
        index = splitPos;
        return spliterator;
    }
    // 其他方法省略...
}
 
// 使用示例
List<Integer> data = ...;
Stream<Integer> optimizedStream = StreamSupport.stream(
    new EfficientSpliterator(data), true);  // 启用并行

五、特殊场景的去重方案

1. 基于部分属性的去重

若需根据对象的部分属性去重(而非全部属性),可结合mapcollect

class Product {
    private String id;
  China编程  private String name;
    private double price;
    // 构造器、getter省略
}
 
// 按id去重
List<Product> uniqueProducts = products.stream()
    .collect(Collectors.collectingAndThen(
        Collectors.toMap(Product::getId, p -> p, (p1, p2) -> p1),
        map -> new ArrayList<>(map.values())
    ));

2. 去重并保留最新元素

在日志等场景中,需按时间戳去重并保留最新记录:

class LogEntry {
    private String message;
    private long timestamp;
    // 构造器、getter省略
}
 
List<LogEntry> latestLogs = jslogs.stream()
    .collect(Collectors.toMap(
        LogEntry::getMessage, 
        entry -> entry, 
        (oldEntry, newEntry) -> newEntry.getTimestamp() > oldEntry.getTimestamp() 
            ? newEntry : oldEntry
    ))
    .values()
    .stream()
    .collect(Collectors.toList());

3. 模糊去重(非精确匹配)

如需基于相似度去重(如字符串编辑距离),需自定义去重逻辑:

List<String> fuzzyUnique = strings.stream()
    .filter(s -> !strings.stream()
        .anyMatch(t -> s != t && levenshteinDistance(s, t) < 2))
    .collect(Collectors.toList());

六、性能对比:distinct 与其他去重方式

去重方式大数据集性能内存占用实现复杂度适用场景
Stream.distinct()高(存储所有元素)通用去重
先排序 + 相邻去重有序数据去重
HashSet 直接去重简单集合去python
分块去重超大数据集去重

总结

distinct()作为 Stream API 中的基础操作,其核心去重逻辑依赖于hashCode()equals()的正确实现,而性能优化的关键在于:

  • 数据有序性利用:先排序再去重可减少哈希表查找次数;
  • 内存占用控制:对大数据集采用分块处理,避免一次性存储所有元素;
  • 基础类型优化:使用IntStream等避免装箱损耗;
  • 并行处理调优:通过自定义Spliterator控制分块大小,减少合并开销。

理解distinct()的底层实现原理,不仅能避免自定义对象去重时的常见错误,更能在处理大规模数据时选择合适的优化策略。记住:去重操作的本质是空间与时间的权衡,根据具体业务场景(数据规模、有序性、精确性要求)选择最优方案,才能实现性能与功能的平衡。

以上就是Java StreazRIiLLBm的distinct去重原理分析的详细内容,更多关于Java Stream distinct去重的资料请关注China编程(www.chinasem.cn)其它相关文章!

这篇关于Java Stream的distinct去重原理分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1155172

相关文章

SpringBoot中4种数据水平分片策略

《SpringBoot中4种数据水平分片策略》数据水平分片作为一种水平扩展策略,通过将数据分散到多个物理节点上,有效解决了存储容量和性能瓶颈问题,下面小编就来和大家分享4种数据分片策略吧... 目录一、前言二、哈希分片2.1 原理2.2 SpringBoot实现2.3 优缺点分析2.4 适用场景三、范围分片

Java实现自定义table宽高的示例代码

《Java实现自定义table宽高的示例代码》在桌面应用、管理系统乃至报表工具中,表格(JTable)作为最常用的数据展示组件,不仅承载对数据的增删改查,还需要配合布局与视觉需求,而JavaSwing... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码

一文详解Java Stream的sorted自定义排序

《一文详解JavaStream的sorted自定义排序》Javastream中的sorted方法是用于对流中的元素进行排序的方法,它可以接受一个comparator参数,用于指定排序规则,sorte... 目录一、sorted 操作的基础原理二、自定义排序的实现方式1. Comparator 接口的 Lam

SpringBoot开发中十大常见陷阱深度解析与避坑指南

《SpringBoot开发中十大常见陷阱深度解析与避坑指南》在SpringBoot的开发过程中,即使是经验丰富的开发者也难免会遇到各种棘手的问题,本文将针对SpringBoot开发中十大常见的“坑... 目录引言一、配置总出错?是不是同时用了.properties和.yml?二、换个位置配置就失效?搞清楚加

SpringBoot集成LiteFlow工作流引擎的完整指南

《SpringBoot集成LiteFlow工作流引擎的完整指南》LiteFlow作为一款国产轻量级规则引擎/流程引擎,以其零学习成本、高可扩展性和极致性能成为微服务架构下的理想选择,本文将详细讲解Sp... 目录一、LiteFlow核心优势二、SpringBoot集成实战三、高级特性应用1. 异步并行执行2

python如何调用java的jar包

《python如何调用java的jar包》这篇文章主要为大家详细介绍了python如何调用java的jar包,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录一、安装包二、使用步骤三、代码演示四、自己写一个jar包五、打包步骤六、方法补充一、安装包pip3 install

怎么用idea创建一个SpringBoot项目

《怎么用idea创建一个SpringBoot项目》本文介绍了在IDEA中创建SpringBoot项目的步骤,包括环境准备(JDK1.8+、Maven3.2.5+)、使用SpringInitializr... 目录如何在idea中创建一个SpringBoot项目环境准备1.1打开IDEA,点击New新建一个项

Java Web实现类似Excel表格锁定功能实战教程

《JavaWeb实现类似Excel表格锁定功能实战教程》本文将详细介绍通过创建特定div元素并利用CSS布局和JavaScript事件监听来实现类似Excel的锁定行和列效果的方法,感兴趣的朋友跟随... 目录1. 模拟Excel表格锁定功能2. 创建3个div元素实现表格锁定2.1 div元素布局设计2.

Spring如何使用注解@DependsOn控制Bean加载顺序

《Spring如何使用注解@DependsOn控制Bean加载顺序》:本文主要介绍Spring如何使用注解@DependsOn控制Bean加载顺序,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录1.javascript 前言2. 代码实现总结1. 前言默认情况下,Spring加载Bean的顺

SpringBoot连接Redis集群教程

《SpringBoot连接Redis集群教程》:本文主要介绍SpringBoot连接Redis集群教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 依赖2. 修改配置文件3. 创建RedisClusterConfig4. 测试总结1. 依赖 <de