T5模型和GPT2模型初步对比

2023-10-18 11:59
文章标签 模型 初步 对比 gpt2 t5

本文主要是介绍T5模型和GPT2模型初步对比,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

T5模型和GPT2模型初步对比


之前试着用GPT2模型训练了一个诗词对联生成程序( 训练诗词生成模型)。
这个周末初步试了一下用T5模型做同样的事,是想对比一下看看两个模型的区别。

这两种模型都是基于经典的 Transformer 模型该进来的,都比最初的 Transformer 强大复杂的多。最大的区别是 GPT2 只有解码器,T5 同时有编码器和解码器。理论上T5这种模型比较善于应对给定输入,产生对应的输出的应用:比如翻译,知识问答等。GPT2 比较善于自由创作,比如写一篇短文等。还有一类只有编码器的模型,擅长处理分类问题。但实际上,只要模型够强大,各种NPL问题都能用同一个模型就解决。(比如我在GPT3模型的网站上大致测试了一下它的功能,它在写作、翻译、对话、分类等各种应用中的表现都非常出色。)

T5模型总体上比GPT2模型大不少。我这次测试的是最小型的T5模型,但也比我上次测试的小型GPT2规模大了一倍以上。我用的是与训练GPT2模型大致相同的数据集。训练了个把小时。只对于T5这么庞大的模型来说,可能是有些不够的。所以我也就不做定量分析了,只大致比较一些GPT2和T5预测诗词的效果。

结果和我预想的差不多。T5的对联生成效果稍好于GPT2的效果;但是GPT2的诗词生成效果远好于T5。
T5这种模型非常适合给定上文然后生成相对固定的下文。比如用于中英翻译,上文是“我喜欢打游戏”,下文基本就可以确定为“I like to play video games”,最多用词上时态上稍有变化。这种对应关系是非常明确的。对联的上下联之间也是有比较明确的对应关系的。所以T5处理起来得心应手。GPT2模型生成对联时候,很明显越长的对联,越容易出错。GPT2模型可以明显的感觉到,它在生成新文字时候,更重视附近的单词的影响。这是可以理解的,在一篇文章里,关系越紧密的文字通常距离也越近。但是对于对联中的文字来说,影响最大的却不是附近的字,而是上联中对应位置的哪个字。那个字如果和当前的字间隔了十几个甚至几十个其它的字,GPT2的生成效果就会大受影响。
T5在这方面处理的更好。但是对联和翻译还是不太一样。在翻译任务中,上下文的对应关系十分明确。而一个上联是可以有非常多不同的对应下联的。在这种灵活性上,GPT2反而更有优势。总的来说,普通对联算是个相对简单的问题。T5模型处理的更好,但GPT2也够用了。至于涉及高级技巧的对联,比如拆字联、无情对等等,目前两个模型都还没办法处理好。

诗词生成难度比对联更大。所以总体来说,两个模型产生的效果都还有待提高。相对来说GPT2的结果更顺畅一些。我网页上演示的结果(https://www.qizhen.xyz/)也还是使用的 GPT2 模型。

接续摘录一些生成的结果:

东风吹绿柳,西日映红霞。
人家在何处,月影对芳华。

春风一缕柳丝柔,又见飞花入眼流。
不是东君都解意,只因明月误归舟。

西风吹叶归,秋老金菊黄 。
霜寒衣袖凉,心冷梦魂长 。

长河万里碧,远岫千峰青。山色横江眼,天光上晚星。
朝花香满袖,暮雨露盈庭。回首人生路,孤帆万里行。

红日正当年,欲乘东风追远梦;春光更好处,唯凭彩笔写新篇

其它乱七八糟的结果我就贴在这里了:
http://labview.qizhen.xyz/

这篇关于T5模型和GPT2模型初步对比的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/232455

相关文章

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

Linux中的more 和 less区别对比分析

《Linux中的more和less区别对比分析》在Linux/Unix系统中,more和less都是用于分页查看文本文件的命令,但less是more的增强版,功能更强大,:本文主要介绍Linu... 目录1. 基础功能对比2. 常用操作对比less 的操作3. 实际使用示例4. 为什么推荐 less?5.

基于Go语言实现Base62编码的三种方式以及对比分析

《基于Go语言实现Base62编码的三种方式以及对比分析》Base62编码是一种在字符编码中使用62个字符的编码方式,在计算机科学中,,Go语言是一种静态类型、编译型语言,它由Google开发并开源,... 目录一、标准库现状与解决方案1. 标准库对比表2. 解决方案完整实现代码(含边界处理)二、关键实现细

PostgreSQL 序列(Sequence) 与 Oracle 序列对比差异分析

《PostgreSQL序列(Sequence)与Oracle序列对比差异分析》PostgreSQL和Oracle都提供了序列(Sequence)功能,但在实现细节和使用方式上存在一些重要差异,... 目录PostgreSQL 序列(Sequence) 与 oracle 序列对比一 基本语法对比1.1 创建序

exfat和ntfs哪个好? U盘格式化选择NTFS与exFAT的详细区别对比

《exfat和ntfs哪个好?U盘格式化选择NTFS与exFAT的详细区别对比》exFAT和NTFS是两种常见的文件系统,它们各自具有独特的优势和适用场景,以下是关于exFAT和NTFS的详细对比... 无论你是刚入手了内置 SSD 还是便携式移动硬盘或 U 盘,都需要先将它格式化成电脑或设备能够识别的「文

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python实现Microsoft Office自动化的几种方式及对比详解

《Python实现MicrosoftOffice自动化的几种方式及对比详解》办公自动化是指利用现代化设备和技术,代替办公人员的部分手动或重复性业务活动,优质而高效地处理办公事务,实现对信息的高效利用... 目录一、基于COM接口的自动化(pywin32)二、独立文件操作库1. Word处理(python-d

Java常用注解扩展对比举例详解

《Java常用注解扩展对比举例详解》:本文主要介绍Java常用注解扩展对比的相关资料,提供了丰富的代码示例,并总结了最佳实践建议,帮助开发者更好地理解和应用这些注解,需要的朋友可以参考下... 目录一、@Controller 与 @RestController 对比二、使用 @Data 与 不使用 @Dat