杂记 | 基于OpenAIEmbedding向量存储的LangChain示例选择器(节省token、提升响应速度、提高回复准确性)

本文主要是介绍杂记 | 基于OpenAIEmbedding向量存储的LangChain示例选择器(节省token、提升响应速度、提高回复准确性),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 01 场景痛点
  • 02 示例选择器
  • 03 实现代码
  • 04 补充 - 最大余弦示例选择器


01 场景痛点

在使用ChatGPT的接口进行交互时,我们常常会通过提供示例的方式来提高大语言模型响应的准确性,在LangChain这一大语言模型通用开发框架中,这被称作few-shot。
然而,一次提供给大语言模型的示例并非越多越好,在一次输入中如果提供了太多的示例,可能造成以下问题:

  • 准确性下降:如果示例的情况比较复杂,过多的示例反而会让大模型产生困扰,尤其是在不那么聪明的gpt-3.5模型上
  • 成本上升:过多的示例文本必然导致token消耗的增加,提高了模型的使用成本
  • 响应时间变长:同理,过多的token会让大模型的处理速度变慢

02 示例选择器

为了解决这一问题,可以使用LangChain的示例选择器来实现,即根据用户的输入,从大量的示例中选出与输入最接近的几个示例,再给到大模型,而非每次都将全部的示例传入。

那么,如何实现从大量的示例中选出与输入最接近的几个示例呢?

最朴素的想法是让gpt来选,但这并没有真正解决问题,因为这属于一步拆成两步的操作。

而向量化的方法完美适配这一场景,OpenAI也提供了用于文本向量嵌入的Embedding模型。

其原理大致是这样的:

提供一个包含了大量示例的示例集,将这些示例中的每个示例转换为向量形式再存储到向量数据库,转换的过程使用OpenAI的Embedding模型,该模型的价格约为gpt3.5模型的1/15,且专门为文本向量化设计。
对于用户的一个输入,同样将其转换为向量表示,向量化后,不同向量之间便可以比较,此时再用用户的输入向量到向量数据库中查找最相似的几条向量,将其对应的原始示例文本添加到提示词中。

而这整个过程,都在LangChain中可以方便的实现。

03 实现代码

以语义相似示例选择器和嵌入式向量数据库Chroma为例。
使用前,需要先安装依赖库:

pip install chromadb tiktoken

python代码

from langchain.prompts.example_selector import SemanticSimilarityExampleSelector
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.prompts import FewShotPromptTemplate, PromptTemplate# 创建单个示例的范式模板
example_prompt = PromptTemplate(input_variables=["input", "output"],template="Input: {input}\nOutput: {output}",
)# 创建一个示例集 其中每个dict中的键名称要与范式模板的input_variables对应
examples = [{"input": "happy", "output": "sad"},{"input": "tall", "output": "short"},{"input": "energetic", "output": "lethargic"},{"input": "sunny", "output": "gloomy"},{"input": "windy", "output": "calm"},
]# 创建语义相似示例选择器
example_selector = SemanticSimilarityExampleSelector.from_examples(examples,  # 示例集OpenAIEmbeddings(),  # OpenAI的Embedding模型 用于将文本转换为向量Chroma,  # Chroma向量数据库 这是一个嵌入式向量数据库k=3  # 每次选择3个示例 不写这个参数默认会选择4个
)# 带示例的提示词模板
similar_prompt = FewShotPromptTemplate(example_selector=example_selector,  # 传入刚才创建好的示例选择器对象example_prompt=example_prompt,  # 单个示例的范式模板prefix="Give the antonym of every input",  # 示例前的提示语suffix="Input: {adjective}\nOutput:",  # 示例后的提示语input_variables=["adjective"],  # 用户的输入变量插槽
)# 输入感受 会选择happy/sad这一示例
print(similar_prompt.format(adjective="worried"), end=f"\n{'-' * 50}\n")# 输入度量 会选择tall/short这一示例
print(similar_prompt.format(adjective="large"), end=f"\n{'-' * 50}\n")# 新增示例 热情/冷漠
similar_prompt.example_selector.add_example({"input": "enthusiastic", "output": "apathetic"})
print(similar_prompt.format(adjective="passionate"))  # 热情

04 补充 - 最大余弦示例选择器

在LangChain中还有一种示例选择器,叫做最大余弦示例选择器,在使用时,仅需将上述代码中引入的“语义相似示例选择器进行替换即可”:

# 语义相似示例选择器
from langchain.prompts.example_selector import SemanticSimilarityExampleSelector
# 替换为 最大余弦示例选择器
from langchain.prompts.example_selector import MaxMarginalRelevanceExampleSelector

关于二者的区别,LangChain文档的问答功能是这样回答的:

MaxMarginalRelevanceExampleSelector和SemanticSimilarityExampleSelector的主要区别如下:

  • 选择原理不同
    SemanticSimilarityExampleSelector仅根据embedding向量之间的相似度选择示例,选择与输入embedding向量最相似的示例。
    MaxMarginalRelevanceExampleSelector在选择最相似的示例的同时,还考虑示例之间的多样性。它会逐步选择相似度最高的示例,但会惩罚与已选择示例过于相似的示例,以保证选择结果的多样性。

  • 实现优化不同
    SemanticSimilarityExampleSelector仅需要计算输入与各示例embedding之间的相似度,实现简单。
    MaxMarginalRelevanceExampleSelector需要额外计算各示例embedding之间的相似度,实现更复杂。但可以产生更多样化的选择结果。

  • 使用场景不同
    当仅需要根据相似度选择示例时,SemanticSimilarityExampleSelector更适用。
    当需要同时考虑相似度和多样性时,MaxMarginalRelevanceExampleSelector更适用。

总体来说,MaxMarginalRelevanceExampleSelector相比SemanticSimilarityExampleSelector,选择机制更复杂,但可以产生更多样化的结果,
更适用于需要示例多样性的场景。两者各有优势,应根据实际需要选择使用。

不过据说OpenAI官方建议使用最大余弦示例选择器,读者可以对比各自使用效果后自信选择。

这篇关于杂记 | 基于OpenAIEmbedding向量存储的LangChain示例选择器(节省token、提升响应速度、提高回复准确性)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/308219

相关文章

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

Python中的Walrus运算符分析示例详解

《Python中的Walrus运算符分析示例详解》Python中的Walrus运算符(:=)是Python3.8引入的一个新特性,允许在表达式中同时赋值和返回值,它的核心作用是减少重复计算,提升代码简... 目录1. 在循环中避免重复计算2. 在条件判断中同时赋值变量3. 在列表推导式或字典推导式中简化逻辑

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1

pandas中位数填充空值的实现示例

《pandas中位数填充空值的实现示例》中位数填充是一种简单而有效的方法,用于填充数据集中缺失的值,本文就来介绍一下pandas中位数填充空值的实现,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是中位数填充?为什么选择中位数填充?示例数据结果分析完整代码总结在数据分析和机器学习过程中,处理缺失数

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

利用Python调试串口的示例代码

《利用Python调试串口的示例代码》在嵌入式开发、物联网设备调试过程中,串口通信是最基础的调试手段本文将带你用Python+ttkbootstrap打造一款高颜值、多功能的串口调试助手,需要的可以了... 目录概述:为什么需要专业的串口调试工具项目架构设计1.1 技术栈选型1.2 关键类说明1.3 线程模

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

Mysql用户授权(GRANT)语法及示例解读

《Mysql用户授权(GRANT)语法及示例解读》:本文主要介绍Mysql用户授权(GRANT)语法及示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql用户授权(GRANT)语法授予用户权限语法GRANT语句中的<权限类型>的使用WITH GRANT