从零开发短视频电商 OpenSearch/ElasticSearch中数据类型介绍

本文主要是介绍从零开发短视频电商 OpenSearch/ElasticSearch中数据类型介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 查询和排序问题
    • 数据类型
      • Text(文本)
      • Keyword(关键字)
      • Wildcard(通配符)
      • Long、Integer、Short、Byte(整数类型)
      • Double、Float、Half_Float、Scaled_Float(浮点数类型)
      • Date、Date_Nanos(日期类型)
      • Date_Range(日期范围)
      • Boolean(布尔)
      • Binary(二进制)
      • Integer_Range、Float_Range、Long_Range、Double_Range(范围类型)
      • Ip_Range(IP 地址范围)
      • Object(对象)
      • Nested(嵌套)
      • Flattened(扁平化)
      • Ip(IP 地址)
      • TokenCount(词条数量)
      • Percolator(过滤器查询)
      • Search_As_You_Type(搜索即时建议)
      • Rank_Feature、Rank_Features(排名特征、排名特征集)
      • Dense_Vector(稠密向量)

查询和排序问题

在Elasticsearch中,查询和过滤是搜索过程中的两个主要步骤,它们的执行时序和具体过程如下:

  • 1.查询(Query)阶段:
    • 匹配查询: 在这个阶段,Elasticsearch执行你定义的查询来找到与查询条件匹配的文档。查询可以是全文本查询、精确匹配、范围查询等。
    • 评分(Scoring): 对于匹配的文档,Elasticsearch会为每个文档计算一个分数,用于排序结果。评分考虑了文档与查询的匹配程度,以及其他相关因素
{"query": {"match": {"field": "value"}}
}
  • 2.过滤(Filter)阶段:
    • 筛选匹配文档: 在查询阶段找到匹配的文档后,过滤阶段用于筛选出满足附加条件的文档。过滤不涉及评分,只关注文档是否满足过滤条件。
{"query": {"match": {"field": "value"}},"filter": {"range": {"date": {"gte": "2023-01-01"}}}
}

在这个示例中,查询阶段找到包含指定字段和值的文档,然后过滤阶段通过范围条件筛选出那些日期在指定范围内的文档。

性能优化: 过滤通常比查询更快,因为它不需要进行评分计算。过滤条件可以包括范围、精确匹配、布尔条件等。

  • 性能考虑: 过滤阶段通常比查询阶段执行得更快,因此,如果你只是需要精确地匹配文档而不关心评分,考虑使用过滤来提高性能。
  • 缓存: 过滤条件的结果可以被缓存,以加速相同条件的后续查询。这对于重复性的查询非常有用。

例如:存储学生数据,不要评分,只搜索年龄大于30岁的学生。

在这种情况下,由于你不关心评分,而只关心筛选出年龄大于30岁的学生,使用过滤(Filter)通常会更快。过滤不涉及评分计算,而且它的结果可以被缓存,从而提高性能。

数据类型

当在 Elasticsearch 中选择数据类型时,应该根据数据的性质和使用场景来进行选择。以下是每个数据类型的常见应用场景和示例:

Text(文本)

  • 应用场景: 存储全文本,支持全文本搜索和分析。
  • 示例: 文章内容、评论、描述等。

text 用于全文本搜索和分析,而 keyword 用于精确匹配和聚合。text 会经历分词等分析过程,而 keyword 则保持原始字符串不变。

text 类型用于全文本搜索,将文本字段分析成词项(terms),并创建倒排索引以支持搜索。

存储在 keyword 类型字段上的文本不会被分析,整个字符串作为一个独立的项。主要用于精确匹配和聚合。

wildcard 主要用于支持通配符搜索,不涉及到分析。它可以用于匹配模式中的通配符表达式。

使用 text 类型字段进行Wildcard查询时,会根据分词结果进行匹配,而使用 keyword 类型字段进行Wildcard查询时,需要整个关键词与查询匹配。

PUT /my_index
{"mappings": {"properties": {"content": {"type": "text"}}}
}POST /my_index/_doc/1
{"content": "Elasticsearch is a distributed search engine."
}GET /my_index/_search
{"query": {"match": {"content": "search engine"}}
}

Keyword(关键字)

  • 应用场景: 精确匹配,通常用于不需要进行全文本搜索的字段。
  • 示例: 类别、标签、关键字等。
PUT /my_index
{"mappings": {"properties": {"text_field": {"type": "text","analyzer": "standard"},"keyword_field": {"type": "keyword"}}}
}POST /my_index/_doc/1
{"text_field": "Elasticsearch is powerful","keyword_field": "Elasticsearch is powerful"
}GET /my_index/_search
{"query": {"term": {"keyword_field": "Elasticsearch"}}
}
结果:搜不到GET /my_index/_search
{"query": {"wildcard": {"keyword_field": "power*"}}
}
结果:搜不到   GET /my_index/_search
{"query": {"match": {"text_field": "Elasticsearch"}}
}
结果:搜索到结果GET /my_index/_search
{"query": {"wildcard": {"text_field": "power*"}}
}
结果:搜索到结果

当你搜索 Elasticsearch 时,对于 text_field 可能会匹配到,因为它被分成了独立的词项。而对于 keyword_field,只有当你搜索整个精确的字符串 “Elasticsearch is powerful” 时才能匹配。

Wildcard(通配符)

  • 应用场景: 支持通配符搜索。
  • 示例: 使用通配符进行模糊搜索。

WildcardText 都可以用于支持通配符搜索。

Wildcard 专门用于通配符搜索,而 Text 是一种通用的文本类型,支持全文本搜索、分析和其他文本处理操作。

通配符查询允许在搜索时使用通配符 *? 来匹配文档中的值。

* 匹配零个或多个字符,? 匹配一个字符。

PUT /my_index
{"mappings": {"properties": {"product_name": {"type": "wildcard"}}}
}POST /my_index/_doc/1
{"product_name": "Elasticsearch"
}GET /my_index/_search
{"query": {"wildcard": {"product_name": "Elast*"}}
}

Long、Integer、Short、Byte(整数类型)

  • 应用场景: 存储整数数据。
  • 示例: 年龄、数量、计数等。

这些整数类型都用于存储整数数据,但有不同的存储范围。

integerlongshortbyte 分别表示 32 位、64 位、16 位和 8 位有符号整数。选择取决于你的数据范围。

PUT /my_index
{"mappings": {"properties": {"age": {"type": "long"}}}
}POST /my_index/_doc/1
{"age": 25
}GET /my_index/_search
{"query": {"range": {"age": {"gte": 20}}}
}

Double、Float、Half_Float、Scaled_Float(浮点数类型)

  • 应用场景: 存储浮点数数据。
  • 示例: 价格、坐标、百分比等。

这些浮点数类型都用于存储浮点数数据。

floatdouble 分别表示 32 位和 64 位浮点数,而 half_float 是 16 位浮点数。scaled_float 允许通过指定缩放因子来存储浮点数。

PUT /my_index
{"mappings": {"properties": {"price": {"type": "double"}}}
}POST /my_index/_doc/1
{"price": 49.99
}GET /my_index/_search
{"query": {"range": {"price": {"lte": 50.0}}}
}

Date、Date_Nanos(日期类型)

  • 应用场景: 存储日期和时间信息。
  • 示例: 发布日期、事件时间等。

date 存储毫秒级的日期,date_nanos 存储纳秒级的日期,而 date_range 用于表示日期范围。

PUT /my_index
{"mappings": {"properties": {"publish_date": {"type": "date"}}}
}POST /my_index/_doc/1
{"publish_date": "2023-01-01T12:00:00"
}GET /my_index/_search
{"query": {"range": {"publish_date": {"gte": "2023-01-01"}}}
}

Date_Range(日期范围)

  • 应用场景: 表示日期范围。
  • 示例: 活动日期范围、计划时间段等。
PUT /my_index
{"mappings": {"properties": {"date_range": {"type": "date_range"}}}
}POST /my_index/_doc/1
{"date_range": {"gte": "2023-01-01","lte": "2023-12-31"}
}GET /my_index/_search
{"query": {"range": {"date_range": {"gte": "2023-06-01","lte": "2023-09-01"}}}
}

Boolean(布尔)

  • 应用场景: 存储布尔值。
  • 示例: 是否完成、是否启用等。
PUT /my_index
{"mappings": {"properties": {"is_completed": {"type": "boolean"}}}
}POST /my_index/_doc/1
{"is_completed": true
}GET /my_index/_search
{"query": {"term": {"is_completed": true}}
}

Binary(二进制)

  • 应用场景: 存储二进制数据,如图像、文档等。
  • 示例: 图片、PDF 文档等。
PUT /my_index
{"mappings": {"properties": {"image_data": {"type": "binary"}}}
}POST /my_index/_doc/1
{"image_data": "base64_encoded_image_data"
}GET /my_index/_search
{"query": {"exists": {"field": "image_data"}}
}

Integer_Range、Float_Range、Long_Range、Double_Range(范围类型)

  • 应用场景: 表示数值范围。
  • 示例: 价格范围、评分范围等。
PUT /my_index
{"mappings": {"properties": {"age_range": {"type": "integer_range"}}}
}POST /my_index/_doc/1
{"age_range": {"gte": 18,"lte": 35}
}GET /my_index/_search
{"query": {"range": {"age_range": {"gte": 25,"lte": 40}}}
}

Ip_Range(IP 地址范围)

  • 应用场景: 存储 IP 地址范围。
  • 示例: IP 地址过滤、地址段范围等。
PUT /my_index
{"mappings": {"properties": {"ip_address_range": {"type": "ip_range"}}}
}POST /my_index/_doc/1
{"ip_address_range": {"gte": "192.168.0.1","lte": "192.168.0.255"}
}GET /my_index/_search
{"query": {"range": {"ip_address_range": {"gte": "192.168.0.100","lte": "192.168.0.200"}}}
}

Object(对象)

  • 应用场景: 嵌套对象,可以包含其他字段。
  • 示例: 用户信息、地址信息等。

Object 类型是一个简单的嵌套对象,可以包含其他字段,但是这些字段是平等的,没有特定的关系。

适用于表示简单嵌套结构的文档,其中字段之间没有复杂的关联。

PUT /my_index
{"mappings": {"properties": {"user_info": {"type": "object","properties": {"name": { "type": "text" },"age": { "type": "integer" },"email": { "type": "keyword" }}}}}
}POST /my_index/_doc/1
{"user_info": {"name": "John Doe","age": 30,"email": "john.doe@example.com"}
}GET /my_index/_search
{"query": {"match": {"user_info.name": "John"}}
}

Nested(嵌套)

  • 应用场景: 嵌套文档类型,适用于嵌套复杂结构的文档。
  • 示例: 文章的评论、订单的商品列表等。

Nested 类型用于嵌套复杂结构的文档,并建立了父子关系,允许在子文档中使用独立的查询。

适用于表示具有层次结构和相互关联的文档,如文章的评论、订单的商品列表等。

PUT /my_index
{"mappings": {"properties": {"comments": {"type": "nested","properties": {"user": { "type": "keyword" },"comment": { "type": "text" }}}}}
}POST /my_index/_doc/1
{"comments": [{ "user": "user1", "comment": "Great article!" },{ "user": "user2", "comment": "Interesting points." }]
}GET /my_index/_search
{"query": {"nested": {"path": "comments","query": {"match": {"comments.comment": "article"}}}}
}

Flattened(扁平化)

  • 应用场景: 将嵌套对象的字段扁平化,以便更容易进行搜索和分析。
  • 示例: 扁平化订单信息中的商品详细信息。

Flattened 类型用于将嵌套对象的字段扁平化,以便更容易进行搜索和分析。它适用于具有深层次嵌套的复杂对象。

适用于需要对嵌套结构进行扁平化处理,以便于搜索和聚合。

PUT /my_index
{"mappings": {"properties": {"order_details": {"type": "flattened"}}}
}POST /my_index/_doc/1
{"order_details": {"product_name": "Smartphone","price": 499.99,"quantity": 2}
}GET /my_index/_search
{"query": {"match": {"order_details.product_name": "Smartphone"}}
}

Ip(IP 地址)

  • 应用场景: 存储 IP 地址。
  • 示例: 用户 IP 地址、服务器 IP 地址等。
PUT /my_index
{"mappings": {"properties": {"ip_address": {"type": "ip"}}}
}POST /my_index/_doc/1
{"ip_address": "192.168.0.1"
}GET /my_index/_search
{"query": {"term": {"ip_address": "192.168.0.1"}}
}

TokenCount(词条数量)

  • 应用场景: 存储通过分析器处理后的词条数量。
  • 示例: 文章中的单词数量、文档中的关键词数量等。
PUT /my_index
{"mappings": {"properties": {"word_count": {"type": "token_count"}}}
}POST /my_index/_doc/1
{"word_count": 100
}GET /my_index/_search
{"query": {"range": {"word_count": {"gte": 50}}}
}

Percolator(过滤器查询)

  • 应用场景: 存储过滤器查询,用于实时检查文档与查询的匹配情况。
  • 示例: 保存搜索过滤器,以便在新文档插入时检查匹配。
PUT /my_index
{"mappings": {"properties": {"filter_query": {"type": "percolator"}}}
}POST /my_index/_doc/1
{"filter_query": {"match": {"category": "Technology"}}
}GET /my_index/_search
{"query": {"percolate": {"field": "filter_query","document": {"category": "Technology"}}}
}

Search_As_You_Type(搜索即时建议)

  • 应用场景: 支持搜索时的自动建议功能。
  • 示例: 实时搜索建议、搜索框中的自动完成。
PUT /my_index
{"mappings": {"properties": {"suggest_field": {"type": "search_as_you_type"}}}
}POST /my_index/_doc/1
{"suggest_field": "Elasticsearch"
}GET /my_index/_search
{"suggest": {"text": "Elasti","my-suggestion": {"prefix": "true","completion": {"field": "suggest_field"}}}
}

Rank_Feature、Rank_Features(排名特征、排名特征集)

  • 应用场景: 存储数值特征,用于搜索和排序。
  • 示例: 用户评分、商品评分等。
PUT /my_index
{"mappings": {"properties": {"user_rating": {"type": "rank_feature"}}}
}POST /my_index/_doc/1
{"user_rating": 4.5
}GET /my_index/_search
{"query": {"function_score": {"query": {"match_all": {}},"field_value_factor": {"field": "user_rating","missing": 0}}}
}

Dense_Vector(稠密向量)

  • 应用场景: 存储数值向量,通常用于机器学习等场景。
  • 示例: 特征向量、嵌套向量表示等。
PUT /my_index
{"mappings": {"properties": {"feature_vector": {"type": "dense_vector"}}}
}POST /my_index/_doc/1
{"feature_vector": [0.1, 0.5, 0.8]
}GET /my_index/_search
{"query": {"script_score": {"query": {"match_all": {}},"script": {"source": "cosineSimilarity(params.query_vector, 'feature_vector') + 1.0","params": {"query_vector": [0.2, 0.3, 0.7]}}}}
}

这篇关于从零开发短视频电商 OpenSearch/ElasticSearch中数据类型介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/483550

相关文章

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

Java中HashMap的用法详细介绍

《Java中HashMap的用法详细介绍》JavaHashMap是一种高效的数据结构,用于存储键值对,它是基于哈希表实现的,提供快速的插入、删除和查找操作,:本文主要介绍Java中HashMap... 目录一.HashMap1.基本概念2.底层数据结构:3.HashCode和equals方法为什么重写Has

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

基于Java开发一个极简版敏感词检测工具

《基于Java开发一个极简版敏感词检测工具》这篇文章主要为大家详细介绍了如何基于Java开发一个极简版敏感词检测工具,文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起学习一下... 目录你是否还在为敏感词检测头疼一、极简版Java敏感词检测工具的3大核心优势1.1 优势1:DFA算法驱动,效率提升10

Springboot项目构建时各种依赖详细介绍与依赖关系说明详解

《Springboot项目构建时各种依赖详细介绍与依赖关系说明详解》SpringBoot通过spring-boot-dependencies统一依赖版本管理,spring-boot-starter-w... 目录一、spring-boot-dependencies1.简介2. 内容概览3.核心内容结构4.

Python开发简易网络服务器的示例详解(新手入门)

《Python开发简易网络服务器的示例详解(新手入门)》网络服务器是互联网基础设施的核心组件,它本质上是一个持续运行的程序,负责监听特定端口,本文将使用Python开发一个简单的网络服务器,感兴趣的小... 目录网络服务器基础概念python内置服务器模块1. HTTP服务器模块2. Socket服务器模块

MySQL数据类型与表操作全指南( 从基础到高级实践)

《MySQL数据类型与表操作全指南(从基础到高级实践)》本文详解MySQL数据类型分类(数值、日期/时间、字符串)及表操作(创建、修改、维护),涵盖优化技巧如数据类型选择、备份、分区,强调规范设计与... 目录mysql数据类型详解数值类型日期时间类型字符串类型表操作全解析创建表修改表结构添加列修改列删除列

Java 与 LibreOffice 集成开发指南(环境搭建及代码示例)

《Java与LibreOffice集成开发指南(环境搭建及代码示例)》本文介绍Java与LibreOffice的集成方法,涵盖环境配置、API调用、文档转换、UNO桥接及REST接口等技术,提供... 目录1. 引言2. 环境搭建2.1 安装 LibreOffice2.2 配置 Java 开发环境2.3 配

setsid 命令工作原理和使用案例介绍

《setsid命令工作原理和使用案例介绍》setsid命令在Linux中创建独立会话,使进程脱离终端运行,适用于守护进程和后台任务,通过重定向输出和确保权限,可有效管理长时间运行的进程,本文给大家介... 目录setsid 命令介绍和使用案例基本介绍基本语法主要特点命令参数使用案例1. 在后台运行命令2.