从零开发短视频电商 PaddleOCR Java推理 (二)优化Translator模型输入和输出

本文主要是介绍从零开发短视频电商 PaddleOCR Java推理 (二)优化Translator模型输入和输出,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

PaddleOCR提供了一系列测试图片,你可以通过点击这里来下载。

值得注意的是,PaddleOCR的模型更新速度远远快于DJL,这导致了一些DJL的优化滞后问题。因此,我们需要采取一些策略来跟上PaddleOCR的最新进展。

针对文本识别模型,你可以参考以下资源:

  • 文档:PaddleOCR文本识别模型推理文档
  • Python推理代码:PaddleOCR文本识别模型推理代码

请注意,PP-OCRv4的识别模型使用的输入形状为3,48,320。此外,PP-OCRv4的识别模型默认使用的rec_algorithmSVTR_LCNet,需要留意其与原始SVTR的区别。

默认的识别模型算法可以在这里找到。

模型的输入和输出在PpWordRecognitionTranslator.java中。

Criteria<Image, String> criteria = Criteria.builder().optEngine("PaddlePaddle").setTypes(Image.class, String.class).optModelPath(Paths.get("C:\\laker-1")).optTranslator(new PpWordRecognitionTranslator()).build();
public class PpWordRecognitionTranslator implements NoBatchifyTranslator<Image, String> {private List<String> table;/** * 准备方法,用于加载模型所需的数据。* * @param ctx 翻译上下文* @throws IOException 如果读取数据时发生错误*/@Overridepublic void prepare(TranslatorContext ctx) throws IOException {try (InputStream is = ctx.getModel().getArtifact("ppocr_keys_v1.txt").openStream()) {// 从文本文件中读取表格数据table = Utils.readLines(is, true);// 在表格开头添加"blank"table.add(0, "blank");// 在表格末尾添加空字符串table.add("");}}/** * 处理输出方法,将模型的输出转换为字符串。* * @param ctx 翻译上下文* @param list 模型的输出列表* @return 转换后的字符串*/@Overridepublic String processOutput(TranslatorContext ctx, NDList list) {StringBuilder sb = new StringBuilder();NDArray tokens = list.singletonOrThrow();long[] indices = tokens.get(0).argMax(1).toLongArray();int lastIdx = 0;for (int i = 0; i < indices.length; i++) {if (indices[i] > 0 && !(i > 0 && indices[i] == lastIdx)) {// 将索引映射为相应的字符串并添加到结果字符串中sb.append(table.get((int) indices[i]));}}return sb.toString();}/** * 处理输入方法,将图像数据转换为模型可接受的格式。* * @param ctx 翻译上下文* @param input 输入图像* @return 转换后的NDList对象*/@Overridepublic NDList processInput(TranslatorContext ctx, Image input) {NDArray img = input.toNDArray(ctx.getNDManager());int[] hw = resize32(input.getWidth());// 调整图像大小、转换为张量并归一化img = NDImageUtils.resize(img, hw[1], hw[0]);img = NDImageUtils.toTensor(img).sub(0.5f).div(0.5f);// 在第一个维度上添加一个维度,通常用于将单个图像添加到批处理中img = img.expandDims(0);return new NDList(img);}private int[] resize32(double w) {// Paddle不依赖于宽高比// 计算新的图像宽度,确保它是32的倍数int width = ((int) Math.max(32, w)) / 32 * 32;return new int[]{32, width};}
}

这里有很多过时的了。

  • 输入尺寸最新为3,48,320
  • 输出的置信度没输出。

我们就来优化这2点。

1.修改模型加载这个地方

Criteria<Image, String> criteria = Criteria.builder().optEngine("PaddlePaddle").setTypes(Image.class, String.class).optModelPath(Paths.get("C:\\laker-1")).optTranslator(new PpWordRecognitionTranslator2()).build();

2.新增PpWordRecognitionTranslator2类

    /** * 处理输出方法,将模型的输出转换为字符串。* * @param ctx 翻译上下文* @param list 模型的输出列表* @return 转换后的字符串* @throws IOException 如果处理输出时发生错误*/@Overridepublic String processOutput(TranslatorContext ctx, NDList list) throws IOException {StringBuilder sb = new StringBuilder();NDArray tokens = list.singletonOrThrow();System.out.println("输出:" + tokens);// 计算出每行中最大值的索引位置 ND: (20, 97) 即 20行 97列,97列// 97列是初始化字典的行数,所以肯定是97列。// 20为图片中可能的字符数long[] indices = tokens.get(0).argMax(1).toLongArray();// 字符置信度float[] probs = new float[indices.length];for (int row = 0; row < indices.length; row++) {long dictIndex = indices[row];if (dictIndex > 0) { // 剔除 blankfloat[] v = tokens.get(0).get(row).toFloatArray();NDArray value = tokens.get(0).get(new NDIndex("" + row + ":" + (row + 1) + "," + dictIndex + ":" + (dictIndex + 1)));probs[row] = value.toFloatArray()[0];System.out.println(table.get((int) dictIndex) + " " + probs[row]);// 剔除置信度小于 0.6的if (probs[row] < 0.6f) {continue;}sb.append(table.get((int) dictIndex));}}return sb.toString();}/** * 处理输入方法,将图像数据转换为模型可接受的格式。* * @param ctx 翻译上下文* @param input 输入图像* @return 转换后的NDList对象*/@Overridepublic NDList processInput(TranslatorContext ctx, Image input) {NDArray img = input.toNDArray(ctx.getNDManager());System.out.println(img);int[] hw = resize48(input.getWidth(), input.getHeight());img = NDImageUtils.resize(img, hw[1], hw[0]);// 将图像转换为张量,并进行归一化操作,减去0.5并除以0.5。img = NDImageUtils.toTensor(img).sub(0.5f).div(0.5f);// 在张量的第一个维度上添加一个维度,通常用于将单个图像添加到批处理中。img = img.expandDims(0);System.out.println("输入 :" + img);return new NDList(img);}/** * 计算新的图像宽度和高度,确保宽度不超过48,并按比例调整高度。* * @param w 图像原始宽度* @param h 图像原始高度* @return 包含新的宽度和高度的整数数组*/private int[] resize48(double w, double h) {double maxWhRatio = w / h;int imgW = (int) (48 * maxWhRatio);// 检查按比例调整高度后是否超过了目标宽度int resizedW = (int) Math.ceil(48 * maxWhRatio);return new int[]{48, resizedW};}

输出为

// 原始图片 高 39,宽105 
: (39, 105, 3) cpu() uint8
[ Exceed max print size ]
// resize后的 高 48,宽130
输入 :ND: (1, 3, 48, 130) cpu() float32
[ Exceed max print size ]
// 字符识别个数为16个,字符是97个的英文字典
输出:softmax_2.tmp_0: (1, 16, 97) cpu() float32
[ Exceed max print size ]
[ 0.932977
1 0.99981683
+ 0.99966896
1 0.99980944
= 0.9967675
2 0.9998343
] 0.9975802[1+1=2]

这篇关于从零开发短视频电商 PaddleOCR Java推理 (二)优化Translator模型输入和输出的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/606748

相关文章

Java中的getBytes()方法使用详解

《Java中的getBytes()方法使用详解》:本文主要介绍Java中getBytes()方法使用的相关资料,getBytes()方法有多个重载形式,可以根据需要指定字符集来进行转换,文中通过代... 目录前言一、常见重载形式二、示例代码三、getBytes(Charset charset)和getByt

Java使用Stream流的Lambda语法进行List转Map的操作方式

《Java使用Stream流的Lambda语法进行List转Map的操作方式》:本文主要介绍Java使用Stream流的Lambda语法进行List转Map的操作方式,具有很好的参考价值,希望对大... 目录背景Stream流的Lambda语法应用实例1、定义要操作的UserDto2、ListChina编程转成M

Spring框架中@Lazy延迟加载原理和使用详解

《Spring框架中@Lazy延迟加载原理和使用详解》:本文主要介绍Spring框架中@Lazy延迟加载原理和使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录一、@Lazy延迟加载原理1.延迟加载原理1.1 @Lazy三种配置方法1.2 @Component

使用easy connect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题

《使用easyconnect之后,maven无法使用,原来需要配置-Djava.net.preferIPv4Stack=true问题》:本文主要介绍使用easyconnect之后,maven无法... 目录使用easGWowCy connect之后,maven无法使用,原来需要配置-DJava.net.pr

idea报错java: 非法字符: ‘\ufeff‘的解决步骤以及说明

《idea报错java:非法字符:‘ufeff‘的解决步骤以及说明》:本文主要介绍idea报错java:非法字符:ufeff的解决步骤以及说明,文章详细解释了为什么在Java中会出现uf... 目录BOM是什么?1. BOM的作用2. 为什么会出现 \ufeff 错误?3. 如何解决 \ufeff 问题?最

使用Java编写一个字符脱敏工具类

《使用Java编写一个字符脱敏工具类》这篇文章主要为大家详细介绍了如何使用Java编写一个字符脱敏工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、字符脱敏工具类2、测试工具类3、测试结果1、字符脱敏工具类import lombok.extern.slf4j.Slf4j

Java实现按字节长度截取字符串

《Java实现按字节长度截取字符串》在Java中,由于字符串可能包含多字节字符,直接按字节长度截取可能会导致乱码或截取不准确的问题,下面我们就来看看几种按字节长度截取字符串的方法吧... 目录方法一:使用String的getBytes方法方法二:指定字符编码处理方法三:更精确的字符编码处理使用示例注意事项方

使用Python和PaddleOCR实现图文识别的代码和步骤

《使用Python和PaddleOCR实现图文识别的代码和步骤》在当今数字化时代,图文识别技术的应用越来越广泛,如文档数字化、信息提取等,PaddleOCR是百度开源的一款强大的OCR工具包,它集成了... 目录一、引言二、环境准备2.1 安装 python2.2 安装 PaddlePaddle2.3 安装

Python+PyQt5开发一个Windows电脑启动项管理神器

《Python+PyQt5开发一个Windows电脑启动项管理神器》:本文主要介绍如何使用PyQt5开发一款颜值与功能并存的Windows启动项管理工具,不仅能查看/删除现有启动项,还能智能添加新... 目录开篇:为什么我们需要启动项管理工具功能全景图核心技术解析1. Windows注册表操作2. 启动文件

Spring三级缓存解决循环依赖的解析过程

《Spring三级缓存解决循环依赖的解析过程》:本文主要介绍Spring三级缓存解决循环依赖的解析过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、循环依赖场景二、三级缓存定义三、解决流程(以ServiceA和ServiceB为例)四、关键机制详解五、设计约