向沐神学习笔记:GPT,GPT-2,GPT-3 论文精读【论文精读】GPT部分

2024-09-03 17:20

本文主要是介绍向沐神学习笔记:GPT,GPT-2,GPT-3 论文精读【论文精读】GPT部分,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章目录

例如:


文章目录

  • 系列文章目录
  • 一、GPT
    • 1、Abstract
  • 二、
    • 1、
    • 2、
    • 3、
  • 三、
    • 1、
    • 2、
    • 3、
  • 四、
    • 1、
    • 2、
    • 3、
  • 五、
    • 1、
    • 2、
    • 3、
  • 六、
    • 1、
    • 2、
    • 3、
  • 七、
    • 1、
    • 2、
    • 3、
  • 八、
    • 1、
    • 2、
    • 3、


一、GPT

  1. 同样模型大小,比如一个亿模型大小的时候,bert的性能表现优于gpt,也就是未来的工作更愿意用bert这篇文章,因为我咬咬牙还能跑起来,但是gpt的实验实在跑不起来。

1、Abstract

Natural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment, and document classification. Although large unlabeled text corpora are abundant, labeled data for learning these specific tasks is scarce, making it challenging for discriminatively trained models to perform adequately. We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task. In contrast to previous approaches, we make use of task-aware input transformations during fine-tuning to achieve effective transfer while requiring minimal changes to the model architecture. We demonstrate the effectiveness of our approach on a wide range of benchmarks for natural language understanding. Our general task-agnostic model outperforms discriminatively trained models that use architectures specifically crafted for each task, significantly improving upon the state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute improvements of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on question answering (RACE), and 1.5% on textual entailment (MultiNLI).自然语言理解包括文本蕴涵、问题回答、语义相似性评估和文档分类等广泛的不同任务。尽管大量的未标注文本语料库非常丰富,但用于学习这些特定任务的标注数据却非常稀少,这使得经过区分训练的模型难以充分发挥作用。我们证明,通过对一个语言模型进行生成性预训练,然后对每个特定的任务进行区分性微调,可以在这些任务上获得很大的收益。与之前的方法不同,我们在微调期间使用任务感知输入转换,以实现有效的转换,同时只需对模型架构进行最小的更改。我们在自然语言理解的广泛基准测试中证明了我们的方法的有效性。我们的通用任务不可知模型优于使用为每项任务专门设计的架构的区别性训练模型,在研究的12项任务中,有9项的最新水平得到了显著提高。例如,我们在常识推理(故事完形填空测试)、问题回答(RACE)和文本蕴涵(MultiNLI)方面分别获得了8.9%、5.7%和1.5%的绝对改进。
理解:自然语言任务很多,但是根据这些任务来标注的数据很少。We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task.这句话表明,我们训练一个预训练的语言模型,接下来再在有标号的子任务上训练一个分辨的微调模型,这个方法在计算机视觉方面以及非常流行,但是在NLP领域不流行是因为没有像ImageNet那么大规模的标号的数据。 机器翻译方面可能有那么大的数据急,但是一张图片和一个句子的信息量不对等,图片的像素所携带的信息量大约为一句话携带信息量的十倍。也就是说我们要至少有1000w个标记好的句子才达到了训练的标准。gpt和bert的突破就是说我们可以用没有标记好的数据来进行预训练。gpt后面的文章又做了zero-shot又是一个突破。之前的word2vec也是用的没有标记好的数据,但是他那时候在下游应用是通过改变模型,这里gpt只需要改变模型的输入加稍微改变模型即可。

二、

1、

2、

3、

三、

1、

2、

3、

四、

1、

2、

3、

五、

1、

2、

3、

六、

1、

2、

3、

七、

1、

2、

3、

八、

1、

2、

3、

这篇关于向沐神学习笔记:GPT,GPT-2,GPT-3 论文精读【论文精读】GPT部分的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1133559

相关文章

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert