【智算101】为什么用好大模型,离不开“向量数据库“呢

2024-06-11 12:04

本文主要是介绍【智算101】为什么用好大模型,离不开“向量数据库“呢,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关注【云原生AI百宝箱】公众号,获取更多云原生AI消息

图片

大模型离不开向量数据库回答这个问题之前,我们先来理解一下什么是向量。

图片

这是一个苹果,但在发明苹果这个词之前,人们怎么描述它呢?

图片

颜色、大小、形状、纹理,找到更多的特征,就能对苹果的定义更清晰。

图片

把这些特征用数字表述就可以得到一个数组,就是向量。

图片

当复杂的图形变成了计算机熟悉的数字,它就认识苹果了。当新的苹果出现,计算机还能认出来它吗?当然。

图片

图片

因为这些图像,在向量空间中离得最近,相似性最高。今天让我们惊叹不已的人工智能,往往通过上千个向量维度来学习、训练,他们就像是AI大模型的眼睛。

图片

当AI大模型遇上庞大的向量数据,这组黄金搭档如何让硅基生物更聪明呢?以大语言模型为例,简单来说,在训练时,喂给它的词句都会先转化为向量数据。

当训练数据里出现多组类似的语言时,在向量数据组成的高维空间相近的词汇就会距离更近,语言模型就可以逐渐捕捉到词汇间的语义和语法,比如他会更明白苹果西瓜与异常接近,和公交车相差甚远。

图片

接下来模型要对对上下文进行理解,此时transformer架构就开始发挥作用,从每个词自身出发,观察和其他词之间的关系权重

img

云原生AI百宝箱

行万里路,此处相逢,共话云原生AI之道。 偶逗趣事,明月清风,与君同坐。

63篇原创内容

公众号

图片

图片

例如,这句话里很好吃,和关系权重最大,权重结果被当做新的维度记录下来,一句更复杂的话,也转化成了带权重的向量。

图片

语言模型经过查询、计算,生成权重最高的答案输出给你,一次问答就完成了。

实际上,大模型训练推理过程更为复杂,他们需要处理如文本、图像、音视频等大量非结构化数据,并转化为向量数据进行学习。这些数据的规模动辄过亿,向量的维度可能高达数千。

图片

在选择数据库时,传统数据库只能进行行列检索,一一对应,再输出精准的答案。

向量数据库则是专门为非结构化数据检索而设计,它将向量数据组成一个立体高维空间,在空间中进行模糊检索,能够快速输出权重最高的答案。

推荐阅读

  • 叮,你收到一份来自CNCF的云原生景观简介
  • 要魔改Kubernetes,我们可以从哪里扩展
  • 问题排查太烦心,试试GPT的超能力
  • Copa:无需重建镜像,直接修补容器漏洞
  • 玩转K8s网络:16张图带你从小白到专家
  • 1000节点集群,5秒搭建好
  • 流量何处来又往何处去,这次一目了然
  • Kubernetes CNI 插件选型和应用场景探讨
  • 块/文件/对象存储难统一管理,试试这个集大成者
  • GPU越来越难买,如何提高利用率
  • 监控外部服务太复杂?ServiceMonitor 和 PrometheusRule有妙招
  • 容器快了,却不安全了,Rootless 安排上
  • 还在Jenkins点点,快来体验Tekton的灵活自动化
  • 懒人福音:LazyDocker轻松驾驭容器,操作高效省心

这篇关于【智算101】为什么用好大模型,离不开“向量数据库“呢的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1051118

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

SQL Server数据库死锁处理超详细攻略

《SQLServer数据库死锁处理超详细攻略》SQLServer作为主流数据库管理系统,在高并发场景下可能面临死锁问题,影响系统性能和稳定性,这篇文章主要给大家介绍了关于SQLServer数据库死... 目录一、引言二、查询 Sqlserver 中造成死锁的 SPID三、用内置函数查询执行信息1. sp_w

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

Druid连接池实现自定义数据库密码加解密功能

《Druid连接池实现自定义数据库密码加解密功能》在现代应用开发中,数据安全是至关重要的,本文将介绍如何在​​Druid​​连接池中实现自定义的数据库密码加解密功能,有需要的小伙伴可以参考一下... 目录1. 环境准备2. 密码加密算法的选择3. 自定义 ​​DruidDataSource​​ 的密码解密3

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

在Java中基于Geotools对PostGIS数据库的空间查询实践教程

《在Java中基于Geotools对PostGIS数据库的空间查询实践教程》本文将深入探讨这一实践,从连接配置到复杂空间查询操作,包括点查询、区域范围查询以及空间关系判断等,全方位展示如何在Java环... 目录前言一、相关技术背景介绍1、评价对象AOI2、数据处理流程二、对AOI空间范围查询实践1、空间查

Python+PyQt5实现MySQL数据库备份神器

《Python+PyQt5实现MySQL数据库备份神器》在数据库管理工作中,定期备份是确保数据安全的重要措施,本文将介绍如何使用Python+PyQt5开发一个高颜值,多功能的MySQL数据库备份工具... 目录概述功能特性核心功能矩阵特色功能界面展示主界面设计动态效果演示使用教程环境准备操作流程代码深度解

MySQL数据库实现批量表分区完整示例

《MySQL数据库实现批量表分区完整示例》通俗地讲表分区是将一大表,根据条件分割成若干个小表,:本文主要介绍MySQL数据库实现批量表分区的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考... 目录一、表分区条件二、常规表和分区表的区别三、表分区的创建四、将既有表转换分区表脚本五、批量转换表为分区

MySQL Workbench工具导出导入数据库方式

《MySQLWorkbench工具导出导入数据库方式》:本文主要介绍MySQLWorkbench工具导出导入数据库方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录mysql Workbench工具导出导入数据库第一步 www.chinasem.cn数据库导出第二步