向量数据库Chroma初步了解学习记录

2024-04-13 00:52

本文主要是介绍向量数据库Chroma初步了解学习记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

前言

一、Chroma是什么?

二、使用步骤

1.安装

2.连接Chroma

内存模式

client模式

Server模式

3.创建数据集

4.写入数据

5.查询数据

 6.完整代码

7.更多参考

三、瞅瞅chroma之sqlite

总结


前言

大模型很强大,但是大模型也存在知识的局限性,即大模型的知识受限于大模型训练日期,大模型的知识是有截止日期的,不是实时的;再一个有些数据是私有的,大模型也无从知晓。

那么RAG就有了用武之地。而Rag这块就不得不提到向量数据库。

虽然传统数据库也可以进行数据查询检索,但是传统数据库是基于关键词,是没有语义理解的。而向量数据库可以进行语义理解,本质上其实是将语言文字做了向量化,即语义空间,语义相近的向量信息也接近。

向量数据库目前也有很多产品,入门简单的首推Chroma,今天就介绍下


一、Chroma是什么?

ChromaDB(也称为Chroma)是一个开源的向量数据库,主要用于AI和机器学习场景。它的主要功能是存储和查询向量数据,这些数据通常是通过嵌入(embedding)算法从文本、图像等数据转换而来的。ChromaDB的设计目标是简化大模型应用的构建过程,允许开发者轻松地将知识、事实和技能等文档整合进大型语言模型(LLM)中。

ChromaDB的特点包括:

  1. 轻量级: 它是一个基于向量检索库实现的轻量级向量数据库。
  2. 易用性: 提供简单的API,易于集成和使用。
  3. 功能丰富: 支持存储嵌入及其元数据、嵌入文档和查询、搜索嵌入等功能。
  4. 集成: 可以直接插入LangChain、LlamaIndex、OpenAI等。
  5. 多语言支持: 包括Python和JavaScript客户端SDK。
  6. 开源: 采用Apache 2.0开源许可。

ChromaDB的一些限制包括目前只支持CPU计算,不支持GPU加速,且功能相对简单。不过,它计划未来推出托管产品,提供无服务器存储和检索功能,支持向上和向下扩展,让开发者更易于使用。

二、使用步骤

1.安装

ChromaDB的安装简单,可以通过pip或npm进行安装。在Python中,可以通过运行pip install chromadb来安装ChromaDB。

2.连接Chroma

内存模式

数据存在内存,程序运行完数据也就没了

import chromadb
from chromadb.config import Settingschroma_client = chromadb.Client(Settings(allow_reset=True))# 为了演示,实际不需要每次 reset()
# chroma_client.reset()

client模式

直接连接本地数据库文件,类似sqlite(看了下,Chroma底层存储就是基于sqlite,后面可以简单说下)

import chromadb
# chroma_client = chromadb.Client()
chroma_client = chromadb.PersistentClient(path="E:\Data\chroma\mydb.db")

Server模式

cmd

chroma run --path E:\Data\chroma\test

这个时候会以命令中指定的路径,创建数据库文件,并启动Chroma服务

回到代码

​import chromadb
chroma_client = chromadb.HttpClient(host='localhost', port=8000)

3.创建数据集

collection类似关系型数据库的表

collection = chroma_client.get_or_create_collection(name=collection_name)

4.写入数据

collection.add(# embeddings=self.embedding_fn(documents),  # 每个文档的向量documents=documents,  # 文档的原文ids=[f"id{i}" for i in range(len(documents))]  # 每个文档的 id)

embeddings参数是文档的向量,这里一般需要调用大模型的embedding模型接口

如果不设置,那么会使用内置的embedding模型

5.查询数据

res=collection.query(query_texts=["查询内容"],n_results=5)

 6.完整代码

import chromadb# collection名称
collection_name="test_01"def init_db_client():"""初始化数据库客户端"""chroma_client = chromadb.HttpClient(host='localhost', port=8000)return chroma_clientdef create_collection(collection_name):"""创建collection"""chroma_client = init_db_client()collection=chroma_client.get_or_create_collection(name=collection_name)return collectiondef add_documents(collection, documents):"""写入数据"""collection.add(# embeddings=self.embedding_fn(documents),  # 每个文档的向量documents=documents,  # 文档的原文ids=[f"id{i}" for i in range(len(documents))]  # 每个文档的 id)def db_test():collection = create_collection(collection_name)datas=["小明喜欢吃苹果", "小红喜欢吃榴莲","小明的女朋友是小丽","王老师是一个好老师","小李喜欢吃香蕉","小王的男朋友是大帅哥"]add_documents(collection, datas)# 查询数据res=collection.query(query_texts=["谁是老师"],n_results=5)print(res)db_test()

7.更多参考

向量数据库Chroma极简教程 - 知乎 (zhihu.com)icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/665715823?utm_id=0

三、瞅瞅chroma之sqlite

看下chroma数据库文件可以发现其数据库实际名称是:chroma.sqlite3

然后我试着用sqlite数据库工具是可以打开这个数据库文件的,有一些固化的表,随便看了下,也是可以找到我写入的数据的。

比如:

collections:新建一个collection这里就有一条记录

embedding_fulltext_search:我写入的数据,这里都有

embedding_fulltext_search_content:同上,不过多了一列id

embedding_fulltext_search_data:这个表数据做编码处理了

embedding_metadata:我写入的数据,这里都有,不过又多了几列


总结

以上就是今天要讲的内容,本文主要对chroma向量数据库进行了基本介绍,然后又介绍了chroma的安装、连接、创建数据、写入数据、查询数据等。

这篇关于向量数据库Chroma初步了解学习记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/898708

相关文章

MySQL数据库中ENUM的用法是什么详解

《MySQL数据库中ENUM的用法是什么详解》ENUM是一个字符串对象,用于指定一组预定义的值,并可在创建表时使用,下面:本文主要介绍MySQL数据库中ENUM的用法是什么的相关资料,文中通过代码... 目录mysql 中 ENUM 的用法一、ENUM 的定义与语法二、ENUM 的特点三、ENUM 的用法1

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者(Producer)配置1. 创建 Spr

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、

MySQL数据库的内嵌函数和联合查询实例代码

《MySQL数据库的内嵌函数和联合查询实例代码》联合查询是一种将多个查询结果组合在一起的方法,通常使用UNION、UNIONALL、INTERSECT和EXCEPT关键字,下面:本文主要介绍MyS... 目录一.数据库的内嵌函数1.1聚合函数COUNT([DISTINCT] expr)SUM([DISTIN

MySQL追踪数据库表更新操作来源的全面指南

《MySQL追踪数据库表更新操作来源的全面指南》本文将以一个具体问题为例,如何监测哪个IP来源对数据库表statistics_test进行了UPDATE操作,文内探讨了多种方法,并提供了详细的代码... 目录引言1. 为什么需要监控数据库更新操作2. 方法1:启用数据库审计日志(1)mysql/mariad

postgresql数据库基本操作及命令详解

《postgresql数据库基本操作及命令详解》本文介绍了PostgreSQL数据库的基础操作,包括连接、创建、查看数据库,表的增删改查、索引管理、备份恢复及退出命令,适用于数据库管理和开发实践,感兴... 目录1. 连接 PostgreSQL 数据库2. 创建数据库3. 查看当前数据库4. 查看所有数据库

从入门到精通MySQL 数据库索引(实战案例)

《从入门到精通MySQL数据库索引(实战案例)》索引是数据库的目录,提升查询速度,主要类型包括BTree、Hash、全文、空间索引,需根据场景选择,建议用于高频查询、关联字段、排序等,避免重复率高或... 目录一、索引是什么?能干嘛?核心作用:二、索引的 4 种主要类型(附通俗例子)1. BTree 索引(

Oracle 数据库数据操作如何精通 INSERT, UPDATE, DELETE

《Oracle数据库数据操作如何精通INSERT,UPDATE,DELETE》在Oracle数据库中,对表内数据进行增加、修改和删除操作是通过数据操作语言来完成的,下面给大家介绍Oracle数... 目录思维导图一、插入数据 (INSERT)1.1 插入单行数据,指定所有列的值语法:1.2 插入单行数据,指