【InternLM实战营第二期笔记】03:“茴香豆“,搭建你的 RAG 智能助理(未完成)

本文主要是介绍【InternLM实战营第二期笔记】03:“茴香豆“,搭建你的 RAG 智能助理(未完成),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 笔记-RAG
    • 课程结构
    • 为什么要用 RAG?
    • 定义
    • 工作原理
    • 向量数据库
    • RAG 工作流程
    • 发展历程
    • 常见优化
    • RAG vs 微调
    • LLM 优化方法比较
    • RAG的评价
    • 总结
  • 笔记-茴香豆
    • 什么是茴香豆
    • 茴香豆实战

笔记-RAG

课程结构

在这里插入图片描述

为什么要用 RAG?

在这里插入图片描述
新增知识,尤其是高频变动且精确度要求高的知识,其实比较难通过微调的方式注入模型,而在模型的输入窗口中添加基于相关性的召回段落,能够比较有效地缓解这个问题。RAG 就是对一类方案的概括。

定义

在这里插入图片描述

工作原理

在这里插入图片描述
Indexing 部分,llamaIndex 是目前比较火的框架。

向量数据库

在这里插入图片描述
实践中召回部分一般需要基于 term + 基于表示的向量多路召回,尤其在一些医疗不充分、embedding 很难训好的领域,传统方法例如 BM25等等还是需要的。

RAG 工作流程

在这里插入图片描述
图上例子很典型,尤其具有时效性的事实性的信息,很难通过微调处理。

发展历程

在这里插入图片描述
其实后面有点像之前的检索系统了,各个模块逐渐独立出来,分别优化。

常见优化

在这里插入图片描述
可以看到这里总结的 RAG 优化,主要优化部分放在了 R 的部分

RAG vs 微调

在这里插入图片描述
微调相对存在一些不可控情形,如果是信息密集且需要高保真度的场景,一般不推荐上来就做微调。

LLM 优化方法比较

在这里插入图片描述
这里的总结也挺全的,基本上生产环境开发,可以考虑这样的优化链路。

RAG的评价

在这里插入图片描述

总结

在这里插入图片描述

笔记-茴香豆

什么是茴香豆

在这里插入图片描述
两篇技术报告写得很好,推荐开发者去读一下,很多问题并不是新问题,但在新技术场景下可以尝试不同的解决方案。
在这里插入图片描述
看来浦语对茴香豆的定位升级成平台性产品了。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

茴香豆实战

在这里插入图片描述
视频中视频,笑死。这是白牛老师的真声吗?

跟教程同步做部署,第一步又是要了命的准备环境。猜猜这次需要多久……
对了发现如果是配环境比较花时间,可以先启动一个算力点消耗更少的开发机,全部装完后再切换过去。

……一路按照教程运行至向量化

python3 -m huixiangdou.service.feature_store --sample ./test_queries.jsonTraceback (most recent call last):File "/root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/runpy.py", line 187, in _run_module_as_mainmod_name, mod_spec, code = _get_module_details(mod_name, _Error)File "/root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/runpy.py", line 110, in _get_module_details__import__(pkg_name)File "/root/huixiangdou/huixiangdou/__init__.py", line 4, in <module>from .service import ChatClient  # noqa E401File "/root/huixiangdou/huixiangdou/service/__init__.py", line 17, in <module>from .web_search import WebSearch  # noqa E401File "/root/huixiangdou/huixiangdou/service/web_search.py", line 11, in <module>from duckduckgo_search import DDGS
ModuleNotFoundError: No module named 'duckduckgo_search'

是教程没更新吗?安装这个包再试试,又出现了新的错误:

python3 -m huixiangdou.service.feature_store --sample ./test_queries.json
/root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/runpy.py:126: RuntimeWarning: 'huixiangdou.service.feature_store' found in sys.modules after import of package 'huixiangdou.service', but prior to execution of 'huixiangdou.service.feature_store'; this may result in unpredictable behaviourwarn(RuntimeWarning(msg))
Traceback (most recent call last):File "/root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/runpy.py", line 196, in _run_module_as_mainreturn _run_code(code, main_globals, None,File "/root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/runpy.py", line 86, in _run_codeexec(code, run_globals)File "/root/huixiangdou/huixiangdou/service/feature_store.py", line 531, in <module>cache = CacheRetriever(config_path=args.config_path)File "/root/huixiangdou/huixiangdou/service/retriever.py", line 220, in __init__config = pytoml.load(f)['feature_store']File "/root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/site-packages/pytoml/parser.py", line 11, in loadreturn loads(fin.read(), translate=translate, object_pairs_hook=object_pairs_hook, filename=getattr(fin, 'name', repr(fin)))File "/root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/site-packages/pytoml/parser.py", line 43, in loadserror('duplicate_keys. Key "{0}" was used more than once.'.format(k))File "/root/.conda/envs/InternLM2_Huixiangdou/lib/python3.10/site-packages/pytoml/parser.py", line 27, in errorraise TomlError(msg, pos[0], pos[1], filename)
pytoml.core.TomlError: config.ini(31, 1): duplicate_keys. Key "local_llm_path" was used more than once.

看来今天的探索要暂时告一段落了……

这篇关于【InternLM实战营第二期笔记】03:“茴香豆“,搭建你的 RAG 智能助理(未完成)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1012072

相关文章

vite搭建vue3项目的搭建步骤

《vite搭建vue3项目的搭建步骤》本文主要介绍了vite搭建vue3项目的搭建步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1.确保Nodejs环境2.使用vite-cli工具3.进入项目安装依赖1.确保Nodejs环境

Python版本信息获取方法详解与实战

《Python版本信息获取方法详解与实战》在Python开发中,获取Python版本号是调试、兼容性检查和版本控制的重要基础操作,本文详细介绍了如何使用sys和platform模块获取Python的主... 目录1. python版本号获取基础2. 使用sys模块获取版本信息2.1 sys模块概述2.1.1

Nginx搭建前端本地预览环境的完整步骤教学

《Nginx搭建前端本地预览环境的完整步骤教学》这篇文章主要为大家详细介绍了Nginx搭建前端本地预览环境的完整步骤教学,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录项目目录结构核心配置文件:nginx.conf脚本化操作:nginx.shnpm 脚本集成总结:对前端的意义很多

idea+spring boot创建项目的搭建全过程

《idea+springboot创建项目的搭建全过程》SpringBoot是Spring社区发布的一个开源项目,旨在帮助开发者快速并且更简单的构建项目,:本文主要介绍idea+springb... 目录一.idea四种搭建方式1.Javaidea命名规范2JavaWebTomcat的安装一.明确tomcat

Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题

《Python爬虫HTTPS使用requests,httpx,aiohttp实战中的证书异步等问题》在爬虫工程里,“HTTPS”是绕不开的话题,HTTPS为传输加密提供保护,同时也给爬虫带来证书校验、... 目录一、核心问题与优先级检查(先问三件事)二、基础示例:requests 与证书处理三、高并发选型:

Rust 智能指针的使用详解

《Rust智能指针的使用详解》Rust智能指针是内存管理核心工具,本文就来详细的介绍一下Rust智能指针(Box、Rc、RefCell、Arc、Mutex、RwLock、Weak)的原理与使用场景,... 目录一、www.chinasem.cnRust 智能指针详解1、Box<T>:堆内存分配2、Rc<T>:

k8s搭建nfs共享存储实践

《k8s搭建nfs共享存储实践》本文介绍NFS服务端搭建与客户端配置,涵盖安装工具、目录设置及服务启动,随后讲解K8S中NFS动态存储部署,包括创建命名空间、ServiceAccount、RBAC权限... 目录1. NFS搭建1.1 部署NFS服务端1.1.1 下载nfs-utils和rpcbind1.1

Oracle Scheduler任务故障诊断方法实战指南

《OracleScheduler任务故障诊断方法实战指南》Oracle数据库作为企业级应用中最常用的关系型数据库管理系统之一,偶尔会遇到各种故障和问题,:本文主要介绍OracleSchedul... 目录前言一、故障场景:当定时任务突然“消失”二、基础环境诊断:搭建“全局视角”1. 数据库实例与PDB状态2

Git进行版本控制的实战指南

《Git进行版本控制的实战指南》Git是一种分布式版本控制系统,广泛应用于软件开发中,它可以记录和管理项目的历史修改,并支持多人协作开发,通过Git,开发者可以轻松地跟踪代码变更、合并分支、回退版本等... 目录一、Git核心概念解析二、环境搭建与配置1. 安装Git(Windows示例)2. 基础配置(必

MyBatis分页查询实战案例完整流程

《MyBatis分页查询实战案例完整流程》MyBatis是一个强大的Java持久层框架,支持自定义SQL和高级映射,本案例以员工工资信息管理为例,详细讲解如何在IDEA中使用MyBatis结合Page... 目录1. MyBATis框架简介2. 分页查询原理与应用场景2.1 分页查询的基本原理2.1.1 分