Langchain-Chatchat本地搭建ChatGLM3模型和提取PDF内容

2024-03-08 08:52

本文主要是介绍Langchain-Chatchat本地搭建ChatGLM3模型和提取PDF内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1、软件要求
    • 2、安装CUDA
      • 2.1、安装gcc
      • 2.2、安装CUDA
    • 3、安装Anaconda3
      • 3.1、下载Anaconda3
      • 3.2、创建python虚拟环境
    • 4、部署系统
      • 4.1、下载源码
      • 4.2、安装依赖
      • 4.3、下载模型
      • 4.4、初始化配置和知识库
        • 4.4.1、初始化配置
        • 4.4.2、初始化知识库
      • 4.5、运行
      • 4.6、运行
        • 4.6.1、启动
        • 4.6.2、启动创建知识库和上传pdf
        • 4.6.3、问答提取内容

1、软件要求

Linux Ubuntu 22.04.5 kernel version 6.7
最低要求
该要求仅针对标准模式,轻量模式使用在线模型,不需要安装torch等库,也不需要显卡即可运行。

  • Python 版本: >= 3.8(很不稳定), < 3.12
  • CUDA 版本: >= 12.1
    推荐要求
    开发者在以下环境下进行代码调试,在该环境下能够避免最多环境问题。
  • Python 版本 == 3.11.7
  • CUDA 版本: == 12.1

本文是基于Ubuntu 22.04.1 LTS (GNU/Linux 5.15.133.1-microsoft-standard-WSL2 x86_64)测试

2、安装CUDA

2.1、安装gcc

输入gcc -version检查是否安装了gcc

~$ gcc --version
Command 'gcc' not found, but can be installed with:
sudo apt install gcc

2.2、安装CUDA

输入nvidia-smi查看支持CUDA的版本,支持的最高版本是12.3
在这里插入图片描述

当前pytorch最高支持12.1,在官网https://developer.nvidia.com/cuda-toolkit-archive下载12.1.1版本
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

输入命令下载安装

wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run
sudo sh cuda_12.1.1_530.30.02_linux.run

配置环境变量,输入vi ~/.bashrc命令打开文件

export PATH=/usr/local/cuda-12.1/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH

刷新环境变量source ~/.bashrc

3、安装Anaconda3

3.1、下载Anaconda3

官网下载:https://www.anaconda.com/download/
清华镜像:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
当前最新版本:https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
下载完成,输入下边命令安装

sh Anaconda3-2023.09-0-Linux-x86_64.sh

3.2、创建python虚拟环境

conda create -n python311 python=3.11# 激活环境
conda activate python311
# 如果activate不存在,改用source激活环境
# source activate python311
# 退出环境
conda deactivate python311 

4、部署系统

4.1、下载源码

浏览器下载:Langchain-Chatchat-0.2.10.zip:https://github.com/chatchat-space/Langchain-Chatchat/releases
也可以通过git拉取最新仓库

# git拉取最新仓库
git clone https://github.com/chatchat-space/Langchain-Chatchat.git 

4.2、安装依赖

# 进入目录
$ cd Langchain-Chatchat# 安装全部依赖
# 使用国内源下载依赖更快:https://mirrors.aliyun.com/pypi/simple/,https://pypi.tuna.tsinghua.edu.cn/simple/
# 全部依赖
$ pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
# api运行依赖
$ pip install -r requirements_api.txt -i https://mirrors.aliyun.com/pypi/simple/
# webui运行依赖
$ pip install -r requirements_webui.txt -i https://mirrors.aliyun.com/pypi/simple/
# 默认依赖包括基本运行环境(FAISS向量库)。如果要使用 milvus/pg_vector 等向量库,请将 requirements.txt 中相应依赖取消注释再安装。

4.3、下载模型

$ git lfs install
# 下载LLM模型,国内从魔塔下载更快
$ git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git
# git clone https://huggingface.co/THUDM/chatglm3-6b# 下载Embedding 模型,国内从魔塔下载更快
$ git clone https://www.modelscope.cn/AI-ModelScope/bge-large-zh.git
# git clone https://huggingface.co/BAAI/bge-large-zh

4.4、初始化配置和知识库

4.4.1、初始化配置
# 初始化Langchain-Chatchat-0.2.10\configs目录内的配置文件
$ python copy_config_example.py
  • 基础配置项 basic_config.py
    该配置基负责记录日志的格式和储存路径,通常不需要修改。
  • 模型配置项 model_config.py
EMBEDDING_MODEL = "bge-large-zh"  # 修改为bge-large-zh
# Embedding 模型运行设备。设为 "auto" 会自动检测(会有警告),也可手动设定为 "cuda","mps","cpu","xpu" 其中
EMBEDDING_DEVICE = "cuda"# 要运行的 LLM 名称,可以包括本地模型和在线模型。列表中本地模型将在启动项目时全部加载。
# 列表中第一个模型将作为 API 和 WEBUI 的默认模型。
# 在这里,我们使用目前主流的两个离线模型,其中,chatglm3-6b 为默认加载模型。
LLM_MODELS = ["chatglm3-6b", "zhipu-api", "openai-api"]
# LLM 模型运行设备。设为"auto"会自动检测(会有警告),也可手动设定为 "cuda","mps","cpu","xpu" 其中之一。
LLM_DEVICE = "cuda" # 修改为cpu
MODEL_PATH = {"embed_model": {......"bge-large-zh": "/mnt/d/project/python/model/BAAI/bge-large-zh", # 修改为物理路径......},"llm_model": {......"chatglm3-6b": "/mnt/d/project/python/model/THUDM/chatglm3-6b", # 修改为物理路径......},
  • 提示词配置项 prompt_config.py
    提示词配置分为三个板块,分别对应三种聊天类型。
llm_chat: 基础的对话提示词, 通常来说,直接是用户输入的内容,没有系统提示词。
knowledge_base_chat: 与知识库对话的提示词,在模板中,我们为开发者设计了一个系统提示词,开发者可以自行更改。
agent_chat: 与Agent对话的提示词,同样,我们为开发者设计了一个系统提示词,开发者可以自行更改。
# prompt模板使用Jinja2语法,简单点就是用双大括号代替f-string的单大括号 请注意,本配置文件支持热加载,修改prompt模板后无需重启服务。
  • 数据库配置 kb_config.py
  • 服务和端口配置项 server_config.py
# 这些模型必须是在model_config.MODEL_PATH或ONLINE_MODEL中正确配置的。
# 在启动startup.py时,可用通过`--model-name xxxx yyyy`指定模型,不指定则为LLM_MODELS
FSCHAT_MODEL_WORKERS = {......"chatglm3-6b": {"device": "cuda", # 配置为cuda},......
}
4.4.2、初始化知识库
## 默认依赖包括基本运行环境(FAISS向量库),初始化自己的知识库
$ python init_database.py --recreate-vs#如果您已经有创建过知识库,可以先执行以下命令创建或更新数据库表:
# python init_database.py --create-tables

4.5、运行

# 一键启动脚本 startup.py, 一键启动所有 Fastchat 服务、API 服务、WebUI 服务,示例代码:
$ python startup.py -a

并可使用 Ctrl + C 直接关闭所有运行服务。

可选参数包括 -a (或–all-webui), --all-api, --llm-api, -c (或–controller), --openai-api, -m (或–model-worker), --api, --webui,其中:

  • –all-webui 为一键启动 WebUI 所有依赖服务;
  • –all-api 为一键启动 API 所有依赖服务;
  • –llm-api 为一键启动 Fastchat 所有依赖的 LLM 服务;
  • –openai-api 为仅启动 FastChat 的 controller 和 openai-api-server 服务;
  • 其他为单独服务启动选项。
    若想指定非默认模型,需要用 --model-name 选项,示例:
$ python startup.py --all-webui --model-name Qwen-7B-Chat

更多信息可通过 python startup.py -h 查看。

4.6、运行

本文运行例子:上传一个PDF文档到知识库,并通过问答的方式提取PDF内容。

4.6.1、启动

在这里插入图片描述

4.6.2、启动创建知识库和上传pdf

在这里插入图片描述
在这里插入图片描述

4.6.3、问答提取内容

问答方式提取内容,除了第一个社会信用代码不准确外,其它问题都能返回准确答案
在这里插入图片描述

安装部署参考自

这篇关于Langchain-Chatchat本地搭建ChatGLM3模型和提取PDF内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/786600

相关文章

C#实现一键批量合并PDF文档

《C#实现一键批量合并PDF文档》这篇文章主要为大家详细介绍了如何使用C#实现一键批量合并PDF文档功能,文中的示例代码简洁易懂,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言效果展示功能实现1、添加文件2、文件分组(书签)3、定义页码范围4、自定义显示5、定义页面尺寸6、PDF批量合并7、其他方法

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

基于C#实现PDF转图片的详细教程

《基于C#实现PDF转图片的详细教程》在数字化办公场景中,PDF文件的可视化处理需求日益增长,本文将围绕Spire.PDFfor.NET这一工具,详解如何通过C#将PDF转换为JPG、PNG等主流图片... 目录引言一、组件部署二、快速入门:PDF 转图片的核心 C# 代码三、分辨率设置 - 清晰度的决定因

Python自动化处理PDF文档的操作完整指南

《Python自动化处理PDF文档的操作完整指南》在办公自动化中,PDF文档处理是一项常见需求,本文将介绍如何使用Python实现PDF文档的自动化处理,感兴趣的小伙伴可以跟随小编一起学习一下... 目录使用pymupdf读写PDF文件基本概念安装pymupdf提取文本内容提取图像添加水印使用pdfplum

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

Linux搭建ftp服务器的步骤

《Linux搭建ftp服务器的步骤》本文给大家分享Linux搭建ftp服务器的步骤,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录ftp搭建1:下载vsftpd工具2:下载客户端工具3:进入配置文件目录vsftpd.conf配置文件4:

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

使用Spring Cache本地缓存示例代码

《使用SpringCache本地缓存示例代码》缓存是提高应用程序性能的重要手段,通过将频繁访问的数据存储在内存中,可以减少数据库访问次数,从而加速数据读取,:本文主要介绍使用SpringCac... 目录一、Spring Cache简介核心特点:二、基础配置1. 添加依赖2. 启用缓存3. 缓存配置方案方案

Java使用正则提取字符串中的内容的详细步骤

《Java使用正则提取字符串中的内容的详细步骤》:本文主要介绍Java中使用正则表达式提取字符串内容的方法,通过Pattern和Matcher类实现,涵盖编译正则、查找匹配、分组捕获、数字与邮箱提... 目录1. 基础流程2. 关键方法说明3. 常见场景示例场景1:提取所有数字场景2:提取邮箱地址4. 高级

使用Java读取本地文件并转换为MultipartFile对象的方法

《使用Java读取本地文件并转换为MultipartFile对象的方法》在许多JavaWeb应用中,我们经常会遇到将本地文件上传至服务器或其他系统的需求,在这种场景下,MultipartFile对象非... 目录1. 基本需求2. 自定义 MultipartFile 类3. 实现代码4. 代码解析5. 自定