【深度学习】sentencepiece工具之BPE训练使用

2023-11-23 15:40

本文主要是介绍【深度学习】sentencepiece工具之BPE训练使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

为什么要使用BPE,BPE是什么

BPE:迭代的将字符串里出现频率最高的子串进行合并
训练过程
在这里插入图片描述
在这里插入图片描述

使用教程

代码使用的语料在这里

# -*- coding: utf-8 -*-
#/usr/bin/python3import os
import errno
import sentencepiece as spm
import re
import logginglogging.basicConfig(level=logging.INFO)def prepro(hp):print("# Check if raw files exist")train1 = "iwslt2016/de-en/train.tags.de-en.de"train2 = "iwslt2016/de-en/train.tags.de-en.en"eval1 = "iwslt2016/de-en/IWSLT16.TED.tst2013.de-en.de.xml"eval2 = "iwslt2016/de-en/IWSLT16.TED.tst2013.de-en.en.xml"test1 = "iwslt2016/de-en/IWSLT16.TED.tst2014.de-en.de.xml"test2 = "iwslt2016/de-en/IWSLT16.TED.tst2014.de-en.en.xml"for f in (train1, train2, eval1, eval2, test1, test2):if not os.path.isfile(f):raise FileNotFoundError(errno.ENOENT, os.strerror(errno.ENOENT), f)print("# Preprocessing")# train_prepro = lambda x:  [line.strip() for line in open(x, mode='r',encoding="utf-8").read().split("\n") \if not line.startswith("<")]prepro_train1, prepro_train2 = _prepro(train1), _prepro(train2)assert len(prepro_train1)==len(prepro_train2), "Check if train source and target files match."# eval_prepro = lambda x: [re.sub("<[^>]+>", "", line).strip() \for line in open(x, mode='r',encoding="utf-8").read().split("\n") \if line.startswith("<seg id")]prepro_eval1, prepro_eval2 = _prepro(eval1), _prepro(eval2)assert len(prepro_eval1) == len(prepro_eval2), "Check if eval source and target files match."# testprepro_test1, prepro_test2 = _prepro(test1), _prepro(test2)assert len(prepro_test1) == len(prepro_test2), "Check if test source and target files match."print("Let's see how preprocessed data look like")print("prepro_train1:", prepro_train1[0])print("prepro_train2:", prepro_train2[0])print("prepro_eval1:", prepro_eval1[0])print("prepro_eval2:", prepro_eval2[0])print("prepro_test1:", prepro_test1[0])print("prepro_test2:", prepro_test2[0])print("# write preprocessed files to disk")os.makedirs("iwslt2016/prepro", exist_ok=True)def _write(sents, fname):with open(fname, mode='w',encoding="utf-8") as fout:fout.write("\n".join(sents))_write(prepro_train1, "iwslt2016/prepro/train.de")_write(prepro_train2, "iwslt2016/prepro/train.en")_write(prepro_train1+prepro_train2, "iwslt2016/prepro/train")_write(prepro_eval1, "iwslt2016/prepro/eval.de")_write(prepro_eval2, "iwslt2016/prepro/eval.en")_write(prepro_test1, "iwslt2016/prepro/test.de")_write(prepro_test2, "iwslt2016/prepro/test.en")print("# Train a joint BPE model with sentencepiece")os.makedirs("iwslt2016/segmented", exist_ok=True)train = '--input=iwslt2016/prepro/train --pad_id=0 --unk_id=1 \--bos_id=2 --eos_id=3\--model_prefix=iwslt2016/segmented/bpe --vocab_size={} \--model_type=bpe'.format(hp.vocab_size)spm.SentencePieceTrainer.Train(train)print("# Load trained bpe model")sp = spm.SentencePieceProcessor()sp.Load("iwslt2016/segmented/bpe.model")print("# Segment")def _segment_and_write(sents, fname):with open(fname,mode= "w",encoding="utf-8") as fout:for sent in sents:pieces = sp.EncodeAsPieces(sent)fout.write(" ".join(pieces) + "\n")_segment_and_write(prepro_train1, "iwslt2016/segmented/train.de.bpe")_segment_and_write(prepro_train2, "iwslt2016/segmented/train.en.bpe")_segment_and_write(prepro_eval1, "iwslt2016/segmented/eval.de.bpe")_segment_and_write(prepro_eval2, "iwslt2016/segmented/eval.en.bpe")_segment_and_write(prepro_test1, "iwslt2016/segmented/test.de.bpe")print("Let's see how segmented data look like")print("train1:", open("iwslt2016/segmented/train.de.bpe",mode='r',encoding="utf-8").readline())print("train2:", open("iwslt2016/segmented/train.en.bpe", mode='r',encoding="utf-8").readline())print("eval1:", open("iwslt2016/segmented/eval.de.bpe", mode='r',encoding="utf-8").readline())print("eval2:", open("iwslt2016/segmented/eval.en.bpe", mode='r',encoding="utf-8").readline())print("test1:", open("iwslt2016/segmented/test.de.bpe", mode='r',encoding="utf-8").readline())if __name__ == '__main__':hparams = Hparams()parser = hparams.parserhp = parser.parse_args()prepro(hp)print("Done")

这篇关于【深度学习】sentencepiece工具之BPE训练使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/418969

相关文章

Java中流式并行操作parallelStream的原理和使用方法

《Java中流式并行操作parallelStream的原理和使用方法》本文详细介绍了Java中的并行流(parallelStream)的原理、正确使用方法以及在实际业务中的应用案例,并指出在使用并行流... 目录Java中流式并行操作parallelStream0. 问题的产生1. 什么是parallelS

Linux join命令的使用及说明

《Linuxjoin命令的使用及说明》`join`命令用于在Linux中按字段将两个文件进行连接,类似于SQL的JOIN,它需要两个文件按用于匹配的字段排序,并且第一个文件的换行符必须是LF,`jo... 目录一. 基本语法二. 数据准备三. 指定文件的连接key四.-a输出指定文件的所有行五.-o指定输出

Java中Redisson 的原理深度解析

《Java中Redisson的原理深度解析》Redisson是一个高性能的Redis客户端,它通过将Redis数据结构映射为Java对象和分布式对象,实现了在Java应用中方便地使用Redis,本文... 目录前言一、核心设计理念二、核心架构与通信层1. 基于 Netty 的异步非阻塞通信2. 编解码器三、

Linux jq命令的使用解读

《Linuxjq命令的使用解读》jq是一个强大的命令行工具,用于处理JSON数据,它可以用来查看、过滤、修改、格式化JSON数据,通过使用各种选项和过滤器,可以实现复杂的JSON处理任务... 目录一. 简介二. 选项2.1.2.2-c2.3-r2.4-R三. 字段提取3.1 普通字段3.2 数组字段四.

Linux kill正在执行的后台任务 kill进程组使用详解

《Linuxkill正在执行的后台任务kill进程组使用详解》文章介绍了两个脚本的功能和区别,以及执行这些脚本时遇到的进程管理问题,通过查看进程树、使用`kill`命令和`lsof`命令,分析了子... 目录零. 用到的命令一. 待执行的脚本二. 执行含子进程的脚本,并kill2.1 进程查看2.2 遇到的

Java HashMap的底层实现原理深度解析

《JavaHashMap的底层实现原理深度解析》HashMap基于数组+链表+红黑树结构,通过哈希算法和扩容机制优化性能,负载因子与树化阈值平衡效率,是Java开发必备的高效数据结构,本文给大家介绍... 目录一、概述:HashMap的宏观结构二、核心数据结构解析1. 数组(桶数组)2. 链表节点(Node

详解SpringBoot+Ehcache使用示例

《详解SpringBoot+Ehcache使用示例》本文介绍了SpringBoot中配置Ehcache、自定义get/set方式,并实际使用缓存的过程,文中通过示例代码介绍的非常详细,对大家的学习或者... 目录摘要概念内存与磁盘持久化存储:配置灵活性:编码示例引入依赖:配置ehcache.XML文件:配置

Java 虚拟线程的创建与使用深度解析

《Java虚拟线程的创建与使用深度解析》虚拟线程是Java19中以预览特性形式引入,Java21起正式发布的轻量级线程,本文给大家介绍Java虚拟线程的创建与使用,感兴趣的朋友一起看看吧... 目录一、虚拟线程简介1.1 什么是虚拟线程?1.2 为什么需要虚拟线程?二、虚拟线程与平台线程对比代码对比示例:三

k8s按需创建PV和使用PVC详解

《k8s按需创建PV和使用PVC详解》Kubernetes中,PV和PVC用于管理持久存储,StorageClass实现动态PV分配,PVC声明存储需求并绑定PV,通过kubectl验证状态,注意回收... 目录1.按需创建 PV(使用 StorageClass)创建 StorageClass2.创建 PV

Python函数作用域与闭包举例深度解析

《Python函数作用域与闭包举例深度解析》Python函数的作用域规则和闭包是编程中的关键概念,它们决定了变量的访问和生命周期,:本文主要介绍Python函数作用域与闭包的相关资料,文中通过代码... 目录1. 基础作用域访问示例1:访问全局变量示例2:访问外层函数变量2. 闭包基础示例3:简单闭包示例4