详解MySQL中DISTINCT去重的核心注意事项

2025-06-18 17:50

本文主要是介绍详解MySQL中DISTINCT去重的核心注意事项,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《详解MySQL中DISTINCT去重的核心注意事项》为了实现查询不重复的数据,MySQL提供了DISTINCT关键字,它的主要作用就是对数据表中一个或多个字段重复的数据进行过滤,只返回其中的一条数据...

DISTINCT 六大注意事项

1. 作用范围:所有 SELECT 字段

SELECT DISTINCT a, b FROM table;  -- 对(a,b)组合整体去重

误以为只作用于第一个字段:

-- 错误理解:以为只对name去重
SELECT DISTINCT name, class FROM students;  

实际效果:对 (name, class) 组合去重(如 ('张三','一班') 和 ('张三','二班') 算不同记录)

2. NULL 值的特殊处理

INSERT INTO students (name, class, score) VALUES (NULL, '三班', 90);

​​​​​​​SELECT DISTINCT name FROM students;

结果:

+--------+
| name   |
+--------+
| 张三   |
| 李四   |
| 王五   |
| NULL   |  -- NULL被视为独立值保留
+--------+

3. 性能陷阱(大数据量)

-- 当表有百万行时慎用
SELECT DISTINCT text_column FROM huge_table; 

优化方案:android

-- 先通过WHERE缩小范围再去重
SELECT DISTINCT text_column 
FROM huge_table 
WHERE create_time > '2023-01-01';

-- 或添加索引(对text类型有限制)
ALTER TABLE huge_table ADD INDEX idx_text(text_column(20)); -- 前缀索引

4. 与 ORDER BY 的优先级

SELECT DISTINCT class 
FROM studeChina编程nts 
ORDER BY score DESC; -- 错误!score不在SELECT中

正确写法:

-- 方案1:排序字段必须在SELECT中
SELECT DISTINCT class, MAX(score) AS max_score 
FROM students 
GROUP BY class 
ORDER BY max_score DESC;

-- 方案2:子查询
SELECT DISTINCT class FROM (
  SELECT class, score FROM students ORDER BY score DESC
) AS tmp;

5. 聚合函数中的 DISTINCT

-- 统计不重复的班级数量
SELECT COUNT(DISTINCT class) FROM students; 

-- 错误用法(语法无效):
SELECT DISTINCT COUNT(class) FROM students; 

6. 不可用于部分字段计算

-- 尝试计算不同班级的平均分(错误!)
SELECT DISTINCT class, AVG(score) FROM students; 

正确做法:必须配合 GROUP BY

SELECT class, AVG(score) 
FROM students 
GROUP BY class;  -- 这才是标准解法

高级注意点

7. 与 LIMIT 的配合问题

SELECT DISTINCT class FROM students LIMIT 2;

结果不确定性:

返回的 2 条记录是随机的(除非指定 ORDER BY),不同执行可能结果不同。

8. 临时表空间占用

DISTINCT 操作会在内存/磁盘创建临时表存储唯一值

当去重字段总数据量超过 tmp_table_size 时,性能急剧下降

查看阈值:

http://www.chinasem.cn
SHOW VARIABLES LIKE 'tmp_table_size'; -- 默认16MB

对比 GROUP BY 去重

特性DISTINCTGROUP BY
是否可搭配聚合函数✅ (如SUM/AVG)
结果排序无序可按分组键排序
执行效率简单场景更快复杂聚合时更优
索引利用可使用索引必须用分组字段索引

最佳实践总结

小数据量:直接 DISTINCT 简洁高效

需要聚合计算:用 GROUP BY 替代

精确去重计数:优先 COUNT(DISTINCT column)

排序需求:必须显式写 ORDER BY

超大数据:先过滤再去重 + 合理索引

实战检验

http://www.chinasem.cn单表 orders 结构:

CREATE TABLE orders (
    id INT PRIMARY KEY,
    product_id INT,
    user_id INT,
    amount DECIMAL(10,2),
    coupon_code VARCHAR(20) -- 允许为NULL
javascript);

问题:

如何高效获取使用过不同优惠券的用户ID列表(含NULL)?

写出你的解决方案:

SELECT _______________________________
FROM orders;

答案(折叠):

-- 方案1:基础写法
SELECT DISTINCT user_id, coupon_code 
FROM orders 
WHERE coupon_code IS NOT NULL; -- 若需包含NULL则去掉WHERE

​​​​​​​-- 方案2:大数据量优化(添加联合索引)
ALTER TABLE orders ADD INDEX idx_user_coupon(user_id, coupon_code);
SELECT DISTINCT user_id, coupon_code FROM orders;

到此这篇关于详解mysql中DISTINCT去重的核心注意事项的文章就介绍到这了,更多相关MySQL DISTINCT去重内容请搜索编程China编程(www.chinasem.cn)以前的文章或继续浏览下面的相关文章希望大家以后多多支持China编程(www.chinasem.cn)!

这篇关于详解MySQL中DISTINCT去重的核心注意事项的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1155122

相关文章

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

MySQL的JDBC编程详解

《MySQL的JDBC编程详解》:本文主要介绍MySQL的JDBC编程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言一、前置知识1. 引入依赖2. 认识 url二、JDBC 操作流程1. JDBC 的写操作2. JDBC 的读操作总结前言本文介绍了mysq

java.sql.SQLTransientConnectionException连接超时异常原因及解决方案

《java.sql.SQLTransientConnectionException连接超时异常原因及解决方案》:本文主要介绍java.sql.SQLTransientConnectionExcep... 目录一、引言二、异常信息分析三、可能的原因3.1 连接池配置不合理3.2 数据库负载过高3.3 连接泄漏

Redis 的 SUBSCRIBE命令详解

《Redis的SUBSCRIBE命令详解》Redis的SUBSCRIBE命令用于订阅一个或多个频道,以便接收发送到这些频道的消息,本文给大家介绍Redis的SUBSCRIBE命令,感兴趣的朋友跟随... 目录基本语法工作原理示例消息格式相关命令python 示例Redis 的 SUBSCRIBE 命令用于订

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

SpringBoot日志级别与日志分组详解

《SpringBoot日志级别与日志分组详解》文章介绍了日志级别(ALL至OFF)及其作用,说明SpringBoot默认日志级别为INFO,可通过application.properties调整全局或... 目录日志级别1、级别内容2、调整日志级别调整默认日志级别调整指定类的日志级别项目开发过程中,利用日志

Java中的抽象类与abstract 关键字使用详解

《Java中的抽象类与abstract关键字使用详解》:本文主要介绍Java中的抽象类与abstract关键字使用详解,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录一、抽象类的概念二、使用 abstract2.1 修饰类 => 抽象类2.2 修饰方法 => 抽象方法,没有

MySQL8 密码强度评估与配置详解

《MySQL8密码强度评估与配置详解》MySQL8默认启用密码强度插件,实施MEDIUM策略(长度8、含数字/字母/特殊字符),支持动态调整与配置文件设置,推荐使用STRONG策略并定期更新密码以提... 目录一、mysql 8 密码强度评估机制1.核心插件:validate_password2.密码策略级