不要头大!基于PostgreSQL的全文搜索干货!

2023-10-27 21:40

本文主要是介绍不要头大!基于PostgreSQL的全文搜索干货!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于PostgreSQL的全文搜索

上周公司内部搞了一个极客擂台赛,leader给出的比赛的题目是PgSQL的全文搜索,想了想这个全文搜索还没弄过,挺感兴趣的,然后就报名了。记录了一下这周的研究成果。

直入正题

什么叫全文搜索?

在这里插入图片描述
wiki百科上的介绍,我理解了一下,全文搜索最核心的点就是“文档”的概念,pgsql的官方文档描述是这样的:在这里插入图片描述实际上,pgsql全文搜索的核心就是俩个函数:to_tsvector()to_tsquery()
to_tsvector()是什么?我们上个sql解释一下
我们可以看到,我们可以看到,to_tsvector实际上把语句转换成了tsvector(文档格式-包含文档值和角标),“上学”对应位置3,“小明”对应语句的位置1,我们记住这种格式就行,后续会用到。
to_tsquery()我们也拿个sql解释一下:
在这里插入图片描述它实际上就是一个传递的参数格式,可以搭配中文分词规则,把一句话拆成多个词传递过去,这俩个函数一结合,就可以实现中文全文搜索了。

好了,开始撸全文搜索了

在这里插入图片描述我们在这里弄了一个表,运输订单表,包括省市区-联系人-详细地址
我们需要搜索起点地址信息和终点地址信息钟,包含"丹丹"这个关键字的记录。怎么搜?
传统做法是用like匹配,而且全模糊是用不到索引的。问题来了,pgsql是不支持中文分词的,怎么弄呢,这里废话不多说,我直接说我做的俩种方案:
1、在linux环境下,装zhparser插件,配合pgsql的函数实现全文搜索
2、windows环境下,通过 jieba-analysis 【结巴分词java版】,通过搭建springboot项目搭建一个中文分词系统,通过这个第三方分词系统,进行分词转成pgsql能识别的格式,然后把数据导入到pgsql里面。

第一个方案,我看网上大多数都有教程了,就这么几步:
1、装scws字典
2、装zhparser插件
3、启动zhparser的extension
4、创建zhparser的分词规则
5、使用zhparser的规则创建gin索引
6、使用索引进行全文查询

我主要讲我第二个方案的骚操作。。。
在这里插入图片描述如图所示
我这个方案是这样的,比如一个text字段的内容是:“南京市长江大桥”,在没装zhparser插件的时候,我直接在pgsql是处理不了的,我给这个text字段创建gin索引的时候(因为创建gin索引必须指定分词规则,这里就拿english做做样子了,english规则是根据符号和空格去分词):
create index search_idx on test_index using gin(to_tsvector(‘english’,text))
创完之后,他实际上是拿整个字段去存索引的,分不了词没有意义。
这里我先通过外部结巴分词系统,拉取数据进行处理,补一下结巴分词的git地址: ## https://github.com/huaban/jieba-analysis

通过结巴分词的JiebaSegmenter将这句话分词为“南京市"、"长江大桥”、"市长"三个词,然后再存到pgsql里面指定新增的一个列(专门用来存这种已经分好词的字符串)
然后就变成这个样子了:【这种数据格式,刚好也符合english规则】
在这里插入图片描述注意,这种格式是会被to_tsvector()函数给识别并成功分词的,效果如下
在这里插入图片描述到这里,中文的全文搜索就已经实现了!

我们先不加索引,进行全文搜素试试

EXPLAIN ANALYZE SELECT * FROM test_index WHERE to_tsvector(text) @@ to_tsquery(‘丹丹’)
在这里插入图片描述可以看到,不加索引的情况下,一百万的数据花了九秒多,究极慢!看来全文搜索还是挺耗性能的。

接下来我们给这个text字段创建gin索引来加速全文搜索:
create index 索引名 on 表名 using gin(to_tsvector(‘english’,text))
这里我们还是拿英文标准创索引,上文说了,其实我们现在这个格式符合english规则,它会根据空格和标点去分词。
这里创建索引的时候,我这边一百万的数据创建索引花了大概一分钟的时间
在这里插入图片描述现在用索引搜索:
EXPLAIN ANALYZE SELECT * FROM test_index WHERE to_tsvector(‘english’,text) @@ to_tsquery(‘丹丹’)
在这里插入图片描述可以看到,加了gin索引之后,速度提升了n倍!
这里我要提一点,官方文档有说明:
在这里插入图片描述上面说的意思就是,你创建索引的时候用的什么分词规则,搜索的时候就要带上这个规则,否则索引会失效。比如用to_tsvector(‘english’,body)建立的索引,比如查询包含xxx的记录,查询的时候就要带上WHERE to_tsvector(‘english’,body) @@ xxx,如果不带上"english",如:WHERE to_tsvector(body) @@ xxx,这个时候索引是会失效的。

提一下这个规则是可以自定义的,比如中文规则,装完zhparser插件的话可以通过:
–添加配置,PARSER使用zhparser
CREATE TEXT SEARCH CONFIGURATION parser_name (PARSER = zhparser);

–设置分词规则 (n 名词 v 动词等,详情阅读下面的文档)
ALTER TEXT SEARCH CONFIGURATION parser_name ADD MAPPING FOR n,v,a,i,e,l,j WITH simple;

然后一个新的分词规则parser_name 就出来了,拿他创建索引
create index search_idx on testindex using gin(to_tsvector(‘parser_name’,txt))
然后后续步骤都一样。

最后讲一个中文搜索的缺点,也是最大的一个bug
比如:
在这里插入图片描述我text字段里面有一个“香港特别行政区”,我通过中文分词插件对这个字段创建gin索引
create index search_idx on testindex using gin(to_tsvector(‘parser_name’,txt))
建立完毕之后,开始全文搜索
在这里插入图片描述发现查不出来东西,结果一看,原来分词插件对“香港特别行政区”没有分词,还是原来的字,并没有把香港这个词单独拎出来
在这里插入图片描述导致查 香港 的时候查不出来,只能通过香港特别行政区去查才能查到。。
在这里插入图片描述最后我们得出结论:中文分词的准确性问题会导致全文搜索的准确性问题

好了,到此,我对pgsql全文搜索的理解就讲完了,随心所想就写了,写的很乱不要见怪…

这篇关于不要头大!基于PostgreSQL的全文搜索干货!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/288575

相关文章

使用Node.js和PostgreSQL构建数据库应用

《使用Node.js和PostgreSQL构建数据库应用》PostgreSQL是一个功能强大的开源关系型数据库,而Node.js是构建高效网络应用的理想平台,结合这两个技术,我们可以创建出色的数据驱动... 目录初始化项目与安装依赖建立数据库连接执行CRUD操作查询数据插入数据更新数据删除数据完整示例与最佳

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库

Oracle迁移PostgreSQL隐式类型转换配置指南

《Oracle迁移PostgreSQL隐式类型转换配置指南》Oracle迁移PostgreSQL时因类型差异易引发错误,需通过显式/隐式类型转换、转换关系管理及冲突处理解决,并配合验证测试确保数据一致... 目录一、问题背景二、解决方案1. 显式类型转换2. 隐式转换配置三、维护操作1. 转换关系管理2.

postgresql使用UUID函数的方法

《postgresql使用UUID函数的方法》本文给大家介绍postgresql使用UUID函数的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录PostgreSQL有两种生成uuid的方法。可以先通过sql查看是否已安装扩展函数,和可以安装的扩展函数

PostgreSQL中rank()窗口函数实用指南与示例

《PostgreSQL中rank()窗口函数实用指南与示例》在数据分析和数据库管理中,经常需要对数据进行排名操作,PostgreSQL提供了强大的窗口函数rank(),可以方便地对结果集中的行进行排名... 目录一、rank()函数简介二、基础示例:部门内员工薪资排名示例数据排名查询三、高级应用示例1. 每

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

postgresql数据库基本操作及命令详解

《postgresql数据库基本操作及命令详解》本文介绍了PostgreSQL数据库的基础操作,包括连接、创建、查看数据库,表的增删改查、索引管理、备份恢复及退出命令,适用于数据库管理和开发实践,感兴... 目录1. 连接 PostgreSQL 数据库2. 创建数据库3. 查看当前数据库4. 查看所有数据库

PostgreSQL数据库密码被遗忘时的操作步骤

《PostgreSQL数据库密码被遗忘时的操作步骤》密码遗忘是常见的用户问题,因此提供一种安全的遗忘密码找回机制是十分必要的,:本文主要介绍PostgreSQL数据库密码被遗忘时的操作步骤的相关资... 目录前言一、背景知识二、Windows环境下的解决步骤1. 找到PostgreSQL安装目录2. 修改p

PostgreSQL 默认隔离级别的设置

《PostgreSQL默认隔离级别的设置》PostgreSQL的默认事务隔离级别是读已提交,这是其事务处理系统的基础行为模式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一 默认隔离级别概述1.1 默认设置1.2 各版本一致性二 读已提交的特性2.1 行为特征2.2

PostgreSQL中MVCC 机制的实现

《PostgreSQL中MVCC机制的实现》本文主要介绍了PostgreSQL中MVCC机制的实现,通过多版本数据存储、快照隔离和事务ID管理实现高并发读写,具有一定的参考价值,感兴趣的可以了解一下... 目录一 MVCC 基本原理python1.1 MVCC 核心概念1.2 与传统锁机制对比二 Postg