阿里通义千问 Qwen2 大模型开源发布

2024-06-10 18:28

本文主要是介绍阿里通义千问 Qwen2 大模型开源发布,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

阿里通义千问 Qwen2 大模型开源发布

Qwen2 系列模型是 Qwen1.5 系列模型的重大升级。该系列包括了五个不同尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B。
在这里插入图片描述

在中文和英文的基础上,Qwen2 系列的训练数据中还增加了其他27种语言相关的高质量数据。此外,上下文长度的支持进一步扩展,最高可达到128K个 tokens(Qwen2-72B-Instruct)。

据公告称,Qwen2 模型相比 Qwen1.5 在大规模模型实现了非常大幅度的效果提升。在针对预训练语言模型的评估中,Qwen2-72B 在包括自然语言理解、知识、代码、数学以及多语言等多个能力上均显著超越了当前最优的开源模型,如 Llama-3-70B 和 Qwen1.5 最大的模型 Qwen1.5-110B。这得益于其预训练数据和训练方法的优化。

Qwen2-72B 在自然语言理解和逻辑推理等方面,尤其是科学类问题上,表现的优势更为明显。在代码测试中,Qwen2-72B 也取得了不俗的成绩,并且在多个编程语言上具有突出的表现。此外,数学能力也因为预训练数据中数学部分的优化而有了大幅度的提升。值得注意的是,在多语言表现上,Qwen2-72B 在多个领域的多语言评测上也具有一定的优势。这也意味着,Qwen2 有潜力在更多的国家和地区得到实际应用。

项目团队在微调和对齐上投入了大量的精力进行研究。Qwen2 的策略包括广泛采集指令和提示词,并利用合成数据,例如使用拒绝采样、代码执行反馈和回译等方法。

为了进一步与人类偏好保持一致,Qwen2 使用了DPO的方法。除了常见的DPO以及其变体如IPO、KTO,Qwen2 还探索了DPO与在线学习的结合,以提升模型能力上限。而为了降低对齐所产生的 “对齐税”,Qwen2 使用模型合并的方法来缓解这个问题。这一系列的努力最终帮助大幅度提升了指令微调模型的基础能力和智能等级。结果如下所示:
在这里插入图片描述

此次 Qwen2 采用了不同的模型许可。除了 Qwen2-72B 仍然使用此前的 Qianwen License 外,其余模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B 以及 Qwen2-57B-A14B 在内,均采用 Apache 2.0 的许可。

这篇关于阿里通义千问 Qwen2 大模型开源发布的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1048928

相关文章

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

linux配置podman阿里云容器镜像加速器详解

《linux配置podman阿里云容器镜像加速器详解》本文指导如何配置Podman使用阿里云容器镜像加速器:登录阿里云获取专属加速地址,修改Podman配置文件并移除https://前缀,最后拉取镜像... 目录1.下载podman2.获取阿里云个人容器镜像加速器地址3.更改podman配置文件4.使用po

修复已被利用的高危漏洞! macOS Sequoia 15.6.1发布

《修复已被利用的高危漏洞!macOSSequoia15.6.1发布》苹果公司于今日发布了macOSSequoia15.6.1更新,这是去年9月推出的macOSSequoia操作... MACOS Sequoia 15.6.1 正式发布!此次更新修复了一个已被黑客利用的严重安全漏洞,并解决了部分中文用户反馈的

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

《SpringBoot整合Sa-Token实现RBAC权限模型的过程解析》:本文主要介绍SpringBoot整合Sa-Token实现RBAC权限模型的过程解析,本文给大家介绍的非常详细,对大家的学... 目录前言一、基础概念1.1 RBAC模型核心概念1.2 Sa-Token核心功能1.3 环境准备二、表结

macOS Sequoia 15.5 发布: 改进邮件和屏幕使用时间功能

《macOSSequoia15.5发布:改进邮件和屏幕使用时间功能》经过常规Beta测试后,新的macOSSequoia15.5现已公开发布,但重要的新功能将被保留到WWDC和... MACOS Sequoia 15.5 正式发布!本次更新为 Mac 用户带来了一系列功能强化、错误修复和安全性提升,进一步增

Maven 依赖发布与仓库治理的过程解析

《Maven依赖发布与仓库治理的过程解析》:本文主要介绍Maven依赖发布与仓库治理的过程解析,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下... 目录Maven 依赖发布与仓库治理引言第一章:distributionManagement配置的工程化实践1

springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法

《springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法》:本文主要介绍springboot整合阿里云百炼DeepSeek实现sse流式打印,本文给大家介绍的非常详细,对大... 目录1.开通阿里云百炼,获取到key2.新建SpringBoot项目3.工具类4.启动类5.测试类6.测

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加