transformers的tokenizer总结

本文主要是介绍transformers的tokenizer总结，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.BPE（byte-pair encoding)

根据字母搭配出现的频率组成词根。

初始vocabulary：["b", "g", "h", "n", "p", "s", "u"]

假设训练数据中有10个hug,5个pug,12个pun，4个bun和5个hugs：

("hug", 10), ("pug", 5), ("pun", 12), ("bun", 4), ("hugs", 5)

那么此时tokenizer会将其分割成：

("h" "u" "g", 10), ("p" "u" "g", 5), ("p" "u" "n", 12), ("b" "u" "n", 4), ("h" "u" "g" "s", 5)

然后计数字母搭配出现的频率，比如"hu"=10+5=15次，"ug"=10+5+5=20次，"un"=12+4=16次

每次选取频率最高的搭配进行更新vocabulary，那么此时vocabulary：["b", "g", "h", "n", "p", "s", "u","ug"]

再次对语料进行分割，结果为：

("h" "ug", 10), ("p" "ug", 5), ("p" "u" "n", 12), ("b" "u" "n", 4), ("h" "ug" "s", 5)

再次计数，再次更新，此时vocabulary：["b", "g", "h", "n", "p", "s", "u","ug","un"]

第三次对语料进行分割，结果为：

("hug", 10), ("p" "ug", 5), ("p" "un", 12), ("b" "un", 4), ("hug" "s", 5)

以此不断更新，直到遇到<unk>（unkonwn,没见过的字母/字符），而vocabulary size和更新次数都是tokenizer训练时的超参数。例如，GPT 的词汇量为 40478，因为它们有 478 个基本字符，并在 40000 次合并后选择停止训练。

2.Byte-level BPE

BPE是基于char的维度进行的，但这样对于某些语言来说，vocabulary会很大。BBPE将文本的UTF-8编码中的一个字节（每个字节有8位的2进制编码，2的8次方=256位。UTF-8可以保证任何语言通用）不同的编码作为vocabulary的base。再加上一些处理标点符号的附加规则。 GPT-2 的词汇量为 50257，对应于 256 字节的基本标记、特殊的文本结束标记以及通过 50,000 次合并学习的符号。