【智算101】为什么用好大模型,离不开“向量数据库“呢

2024-06-11 12:04

本文主要是介绍【智算101】为什么用好大模型,离不开“向量数据库“呢,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关注【云原生AI百宝箱】公众号,获取更多云原生AI消息

图片

大模型离不开向量数据库回答这个问题之前,我们先来理解一下什么是向量。

图片

这是一个苹果,但在发明苹果这个词之前,人们怎么描述它呢?

图片

颜色、大小、形状、纹理,找到更多的特征,就能对苹果的定义更清晰。

图片

把这些特征用数字表述就可以得到一个数组,就是向量。

图片

当复杂的图形变成了计算机熟悉的数字,它就认识苹果了。当新的苹果出现,计算机还能认出来它吗?当然。

图片

图片

因为这些图像,在向量空间中离得最近,相似性最高。今天让我们惊叹不已的人工智能,往往通过上千个向量维度来学习、训练,他们就像是AI大模型的眼睛。

图片

当AI大模型遇上庞大的向量数据,这组黄金搭档如何让硅基生物更聪明呢?以大语言模型为例,简单来说,在训练时,喂给它的词句都会先转化为向量数据。

当训练数据里出现多组类似的语言时,在向量数据组成的高维空间相近的词汇就会距离更近,语言模型就可以逐渐捕捉到词汇间的语义和语法,比如他会更明白苹果西瓜与异常接近,和公交车相差甚远。

图片

接下来模型要对对上下文进行理解,此时transformer架构就开始发挥作用,从每个词自身出发,观察和其他词之间的关系权重

img

云原生AI百宝箱

行万里路,此处相逢,共话云原生AI之道。 偶逗趣事,明月清风,与君同坐。

63篇原创内容

公众号

图片

图片

例如,这句话里很好吃,和关系权重最大,权重结果被当做新的维度记录下来,一句更复杂的话,也转化成了带权重的向量。

图片

语言模型经过查询、计算,生成权重最高的答案输出给你,一次问答就完成了。

实际上,大模型训练推理过程更为复杂,他们需要处理如文本、图像、音视频等大量非结构化数据,并转化为向量数据进行学习。这些数据的规模动辄过亿,向量的维度可能高达数千。

图片

在选择数据库时,传统数据库只能进行行列检索,一一对应,再输出精准的答案。

向量数据库则是专门为非结构化数据检索而设计,它将向量数据组成一个立体高维空间,在空间中进行模糊检索,能够快速输出权重最高的答案。

推荐阅读

  • 叮,你收到一份来自CNCF的云原生景观简介
  • 要魔改Kubernetes,我们可以从哪里扩展
  • 问题排查太烦心,试试GPT的超能力
  • Copa:无需重建镜像,直接修补容器漏洞
  • 玩转K8s网络:16张图带你从小白到专家
  • 1000节点集群,5秒搭建好
  • 流量何处来又往何处去,这次一目了然
  • Kubernetes CNI 插件选型和应用场景探讨
  • 块/文件/对象存储难统一管理,试试这个集大成者
  • GPU越来越难买,如何提高利用率
  • 监控外部服务太复杂?ServiceMonitor 和 PrometheusRule有妙招
  • 容器快了,却不安全了,Rootless 安排上
  • 还在Jenkins点点,快来体验Tekton的灵活自动化
  • 懒人福音:LazyDocker轻松驾驭容器,操作高效省心

这篇关于【智算101】为什么用好大模型,离不开“向量数据库“呢的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1051118

相关文章

在 Spring Boot 中连接 MySQL 数据库的详细步骤

《在SpringBoot中连接MySQL数据库的详细步骤》本文介绍了SpringBoot连接MySQL数据库的流程,添加依赖、配置连接信息、创建实体类与仓库接口,通过自动配置实现数据库操作,... 目录一、添加依赖二、配置数据库连接三、创建实体类四、创建仓库接口五、创建服务类六、创建控制器七、运行应用程序八

Oracle数据库定时备份脚本方式(Linux)

《Oracle数据库定时备份脚本方式(Linux)》文章介绍Oracle数据库自动备份方案,包含主机备份传输与备机解压导入流程,强调需提前全量删除原库数据避免报错,并需配置无密传输、定时任务及验证脚本... 目录说明主机脚本备机上自动导库脚本整个自动备份oracle数据库的过程(建议全程用root用户)总结

虚拟机Centos7安装MySQL数据库实践

《虚拟机Centos7安装MySQL数据库实践》用户分享在虚拟机安装MySQL的全过程及常见问题解决方案,包括处理GPG密钥、修改密码策略、配置远程访问权限及防火墙设置,最终通过关闭防火墙和停止Net... 目录安装mysql数据库下载wget命令下载MySQL安装包安装MySQL安装MySQL服务安装完成

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

SQL server数据库如何下载和安装

《SQLserver数据库如何下载和安装》本文指导如何下载安装SQLServer2022评估版及SSMS工具,涵盖安装配置、连接字符串设置、C#连接数据库方法和安全注意事项,如混合验证、参数化查... 目录第一步:打开官网下载对应文件第二步:程序安装配置第三部:安装工具SQL Server Manageme

C#连接SQL server数据库命令的基本步骤

《C#连接SQLserver数据库命令的基本步骤》文章讲解了连接SQLServer数据库的步骤,包括引入命名空间、构建连接字符串、使用SqlConnection和SqlCommand执行SQL操作,... 目录建议配合使用:如何下载和安装SQL server数据库-CSDN博客1. 引入必要的命名空间2.

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

MySQL数据库中ENUM的用法是什么详解

《MySQL数据库中ENUM的用法是什么详解》ENUM是一个字符串对象,用于指定一组预定义的值,并可在创建表时使用,下面:本文主要介绍MySQL数据库中ENUM的用法是什么的相关资料,文中通过代码... 目录mysql 中 ENUM 的用法一、ENUM 的定义与语法二、ENUM 的特点三、ENUM 的用法1

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁