【大模型LLMs】文本分块Chunking调研LangChain实战

2024-08-28 01:04

本文主要是介绍【大模型LLMs】文本分块Chunking调研LangChain实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【大模型LLMs】文本分块Chunking调研&LangChain实战

  • Chunking策略类型
    • 1. 基于规则的文本分块
    • 2. 基于语义Embedding分块
    • 3. 基于端到端模型的分块
    • 4. 基于大模型的分块
  • Chunking工具使用(LangChain)
    • 1. 固定大小分块(字符&token)
    • 2. 语义分块

总结目前主流的文本分块chunking方法,给出LangChain实现各类chunking方法的示例

Chunking策略类型

1. 基于规则的文本分块

  • 固定大小分块: 按照固定大小的字符数目/token数目以及特定的分隔符对文本进行切分,是最常见的分块方式,简单直接,不依赖NLP能力,成本低易于使用
    • chunk_size: 块大小
    • chunk_overlap: 重叠字符数目,允许不同块之间存在重复内容,以保证语义上下文的一致性和连贯性
    • tokenizer: 分词模型(非必需,直接用原字符分块则无需tokenizer)
  • 内容感知分块: 考虑文本本身的 语法/句法结构(显式的分隔符) 进行分块
    • 依赖显式的分隔符进行切块: 常用的标点符号、空格字符、换行符等
    • 依赖各类工具库: NLTK、spaCy等
  • 结构感知分块: 主要针对MarkdownHTML等具有明确结构格式的文档,对文本进行解析
  • 递归分块: 递归分块首先尝试按照一定的标准(如段落或标题)分割文本,如果分割后的文本块仍然过大,就会在这些块上重复进行分割过程,直到所有块的大小都符合要求

2. 基于语义Embedding分块

本质是基于滑动窗口的思想,依次计算相邻的两句话之间的语义相似度,满足阈值的视为表示同样的语义/主题,会划分到同一个块中,不满足阈值的则进行切分。

  • 文本表征: 基于BERT、OpenAI的Embedding model等预训练模型对所有文本进行embedding,获得文本的语义特征向量
  • 语义分析: 通过余弦相似度等方式计算两句话之间的语义关系
  • 分块决策: 判断两句话之间是否需要分块,一般基于语义相似度,超过阈值则划分至同一个块,反之则切分;尽量保证每个分块的语义独立和完整

3. 基于端到端模型的分块

  • NSP: 使用BERT模型的 下一句预测任务(Next Sentence Prediction,NSP) 判断两句话之间是否需要切分
  • Cross-Segment: 采用跨片段的注意力机制来分析文本。首先利用BERT模型获取句子的向量表示,然后将连续多个句子的向量表示输入到另一个BERT或者LSTM模型中,一次性预测每个句子是否为分块的边界
    在这里插入图片描述
  • SeqModel:在Cross-Segment基础上,增强了上下文表示,并通过自适应滑动窗口的思想提高模型速度。相比Cross-Segment,SeqModel 可以同时处理更多句子,通过自注意力机制建模更长上下文和句子间的依赖关系
    在这里插入图片描述

4. 基于大模型的分块

基本等效于single-document的summarization extraction任务,参考LLMs-based Summarization方法,通过知识蒸馏或提示工程的方式,让LLMs抽取文本中的要点

  • 基于知识蒸馏的方法: 一般采用teacher-student架构,由GPT4类参数规模较大的LLMs作为teacher,从全文中抽取摘要作为“标准答案”,作为训练语料微调Llama2-7B类参数规模较小的LLMs(student)
  • 基于CoT的方法: 设置预制问题/Plan规划等,让大模型按照要求给出回复

Chunking工具使用(LangChain)

1. 固定大小分块(字符&token)

from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitterdef get_document_text(doc_path_list: list[str]) -> list[str]:text_list = []for doc_path in doc_path_list:with open(doc_path, 'r', encoding='utf-8') as f:text = f.read()text_list.append(text)return text_listdef character_chunking(text_list: list[str], character_type: str="char"):if character_type == "char":# 字符级text_splitter = CharacterTextSplitter(chunk_size=512, chunk_overlap=128, separator="\n", strip_whitespace=True)elif character_type == "token":# token级别text_splitter = CharacterTextSplitter.from_tiktoken_encoder(model_name="gpt-4",chunk_size=512, chunk_overlap=128, separator="\n", strip_whitespace=True)else:returnchunking_res_list = text_splitter.create_documents(text_list)for chunking_res in chunking_res_list:print(chunking_res)print("*"*100)def recursive_character_chunking(text_list: list[str], character_type: str="char"):if character_type == "char":# 字符级text_splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=128, separators=["\n\n", "\n", "。", ".", "?", "?", "!", "!"], strip_whitespace=True)elif character_type == "token":# token级别text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(model_name="gpt-4",chunk_size=512, chunk_overlap=128, separators=["\n\n", "\n", "。", ".", "?", "?", "!", "!"], strip_whitespace=True)else:returnchunking_res_list = text_splitter.create_documents(text_list)for chunking_res in chunking_res_list:print(chunking_res)print("*"*100)if __name__ == "__main__":doc_path_list = ['../data/chunking_test.txt']text_list = get_document_text(doc_path_list)# character_chunking(text_list)recursive_character_chunking(text_list, character_type="token")

在这里插入图片描述

2. 语义分块

from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain_community.embeddings import HuggingFaceBgeEmbeddingsdef get_document_text(doc_path_list: list[str]) -> list[str]:text_list = []for doc_path in doc_path_list:with open(doc_path, 'r', encoding='utf-8') as f:text = f.read()text_list.append(text)return text_listdef semantic_chunking(text_list: list[str]): # embeddings = OpenAIEmbeddings()  # 使用openai模型embeddings = HuggingFaceBgeEmbeddings(  model_name = '../../../model/bge-base-zh-v1.5') # 使用huggingface的bge embeddings模型text_splitter = SemanticChunker(embeddings = embeddings,breakpoint_threshold_type = "percentile",  # 百分位数breakpoint_threshold_amount = 30,  # 百分比sentence_split_regex = r"(?<=[。?!])\s+"  # 正则,用于分句)chunking_res_list = text_splitter.create_documents(text_list)for chunking_res in chunking_res_list:print(chunking_res)print("*"*100)if __name__ == "__main__":doc_path_list = ['../data/chunking_test.txt']text_list = get_document_text(doc_path_list)semantic_chunking(text_list)

在这里插入图片描述

这篇关于【大模型LLMs】文本分块Chunking调研LangChain实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1113289

相关文章

MyBatis分页查询实战案例完整流程

《MyBatis分页查询实战案例完整流程》MyBatis是一个强大的Java持久层框架,支持自定义SQL和高级映射,本案例以员工工资信息管理为例,详细讲解如何在IDEA中使用MyBatis结合Page... 目录1. MyBATis框架简介2. 分页查询原理与应用场景2.1 分页查询的基本原理2.1.1 分

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Java实现在Word文档中添加文本水印和图片水印的操作指南

《Java实现在Word文档中添加文本水印和图片水印的操作指南》在当今数字时代,文档的自动化处理与安全防护变得尤为重要,无论是为了保护版权、推广品牌,还是为了在文档中加入特定的标识,为Word文档添加... 目录引言Spire.Doc for Java:高效Word文档处理的利器代码实战:使用Java为Wo

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

Three.js构建一个 3D 商品展示空间完整实战项目

《Three.js构建一个3D商品展示空间完整实战项目》Three.js是一个强大的JavaScript库,专用于在Web浏览器中创建3D图形,:本文主要介绍Three.js构建一个3D商品展... 目录引言项目核心技术1. 项目架构与资源组织2. 多模型切换、交互热点绑定3. 移动端适配与帧率优化4. 可

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解(高频使用)三、clean生命周期核心阶

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

Java 正则表达式的使用实战案例

《Java正则表达式的使用实战案例》本文详细介绍了Java正则表达式的使用方法,涵盖语法细节、核心类方法、高级特性及实战案例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、正则表达式语法详解1. 基础字符匹配2. 字符类([]定义)3. 量词(控制匹配次数)4. 边

Java Scanner类解析与实战教程

《JavaScanner类解析与实战教程》JavaScanner类(java.util包)是文本输入解析工具,支持基本类型和字符串读取,基于Readable接口与正则分隔符实现,适用于控制台、文件输... 目录一、核心设计与工作原理1.底层依赖2.解析机制A.核心逻辑基于分隔符(delimiter)和模式匹