中文数据让LLM变笨？

2024-01-24 00:04

文章标签 数据中文 llm 变笨

本文主要是介绍中文数据让LLM变笨？，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

我这里先贴一下论文的原链接：

https://arxiv.org/abs/2401.10286

然后贴一下我翻译+标注的下载链接：https://gitee.com/chatpaper/arXiv_top_chinese/blob/master/0801_top/%E4%B8%AD%E6%96%87%E4%BC%9A%E8%AE%A9LLM%E5%8F%98%E7%AC%A8%EF%BC%9F.pdf

先说一下我看这篇文章的动机：

中文是不是真的太烂了，导致处理中文任务也比不过英文基座模型？
有没有是分词不兼容，模型结构、大小等原因导致的?

OK，我们先看它的摘要部分翻译：

尽管在语言模型应用中，任务与训练语料库之间的一致性是一个基本共识，但我们的一系列实验和我们设计的度量标准揭示，基于代码的大型语言模型（LLMs）在非编码中文任务中显著优于在与任务紧密匹配的数据上训练的模型。此外，在对中文幻觉高度敏感的任务中，实验结果表明，具有较少中文语言特性的模型，取得了更好的性能。我们的实验结果可以在中文数据处理任务中很容易地被复制，例如为检索增强生成（Retrieval-Augmented Generation, RAG）准备数据，只需简单地用基于代码的模型替换基础模型。此外，我们的研究为讨论哲学上的“中文房间”思想实验提供了一个独特的视角。

上面的结论，直接跳到实验结果中，即4.2.2 Less Chinese Knowledge, Less Hallucination

原文翻译：

表3展示了DeepSeek代码6.7b和Code Llama 7b的评估结果，它们都是在代码数据上训练的，并且具有几乎相同数量的参数。DeepSeek代码6.7b得分低于Code Llama 7b在EXPERTS上的主要原因是，DeepSeek代码6.7b的回答有时包含一些源材料中没有的信息【也就是幻觉比较重】。CCR指标也证实了Code Llama 7b具有较少的幻觉。在我们的知识生成任务中，原始内容的逐字复制是必要的，因此具有较少中文知识的基于代码的LLM表现更好【这个其实比较难评了，DeepSeek Code 6.7b和Code Llama 7b，这两个模型的训练细节都完全不一样，没法直接归因到中文数据吧？】。实验结果表明，过多的中文知识可能会干扰任务的完成。这一结果使我们深思：更大的模型可能拥有更多知识，然而在这个任务中，我们并不需要一个更有知识的模型，而是需要一个更忠实的模型，减少幻觉。

贴一下表3：