本文主要是介绍国内大语言模型对比评测(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
国内大语言模型对比评测(一)
针对国产大模型的横空出世并不断打磨其性能,这次评测我们将覆盖国内所有开源的大语言模型(如下),也针对大家常用功能的设计了测试问题,用于评测其生成结果的优劣。测试问题统一为中文,用于为国内用户使用大语言模型提供参考。
我们所用到的国产大语言模型如下:
百度文心大模型3.5
阿里通义大模型
腾讯混元大模型
讯飞星火认知大模型
抖音云雀大模型
智谱清言
百川智能
MINIMAX
我们所涉及的测试问题主要涉及以下方面:自然语言理解、推理、创造性、情感和意图分析、语言多样性和翻译、多学科知识融合、偏见和伦理、鲁棒性、数学推理、医学诊断、多模态理解和生成。
评测系列文章:
- 国内大语言模型对比评测(一)
- 自然语言理解
- 推理
- 创造性
- 情感和意图分析
- 国内大语言模型对比评测(二)
- 语言多样性和翻译
- 多学科知识融合
- 偏见和伦理
- 鲁棒性
- 国内大语言模型对比评测(三)
- 数学推理
- 医学诊断
- 多模态理解和生成
文章目录
- 国内大语言模型对比评测(一)
- 测试结果
- 一. 自然语言理解
- 二. 推理
- 三. 创造性
- 四. 情感和意图分析
测试结果
一. 自然语言理解
测试问题:"解释量子力学的哥本哈根解释是什么?"、"在《罗密欧与朱丽叶》中,朱丽叶的复杂情感如何反映了莎士比亚对人性的理解?" |
评测结果:国产大模型在自然语言理解和生成结果上相差不大 |
百度文心一言3.5
![]() | ![]() |
阿里通义千问
![]() | ![]() |
腾讯混元
![]() | ![]() |
讯飞星火
![]() | ![]() |
抖音云雀
![]() | ![]() |
智谱清言
![]() | ![]() |
百川智能
![]() | ![]() |
MINIMAX
![]() | ![]() |
二. 推理
测试问题:"如果一个房间里有两盏灯和两个开关,如何通过在房间外操作开关来确定哪个开关控制哪盏灯?"、"一个火车从城市A到城市B行驶,另一个火车从城市B到城市A行驶。一旦相遇,哪个火车距离它开始的城市更远?" |
评测结果:阿里通义千文 > 抖音云雀 > 腾讯混元 = 百川智能 = MINIMAX > 讯飞星火 > 智谱清言 > 百度文心一言3.5 |
百度文心一言3.5
![]() | ![]() |
阿里通义千问
![]() | ![]() |
腾讯混元
![]() | ![]() |
讯飞星火
![]() | ![]() |
抖音云雀
![]() | ![]() |
智谱清言
![]() | ![]() |
百川智能
![]() | ![]() |
MINIMAX
![]() | ![]() |
三. 创造性
测试问题:"编写一个简短的故事,主题是时间旅行者误入了古罗马"、"设计一个适合初学者的Python编程练习" |
评测结果:百度文心 > 腾讯混元 = MINIMAX > 百川智能 = 智谱清言 > 讯飞星火 = 抖音云雀 > 阿里通义千问 对于国产大模型生成创新性结果几乎很类似,用的人物、场景、编程等元素有很多的重合度,所以其原创创新性不太够 |
百度文心一言3.5
![]() | ![]() |
阿里通义千问
![]() | ![]() |
腾讯混元
![]() | ![]() |
讯飞星火
![]() | ![]() |
抖音云雀
![]() | ![]() |
智谱清言
![]() | ![]() |
百川智能
![]() | ![]() |
MINIMAX
![]() | ![]() |
四. 情感和意图分析
测试问题:"解释这句话的情感色彩:'我简直不敢相信你真的做到了!'"、"这封投诉信的主要诉求是什么?" |
评测结果:阿里通义千问 > 腾讯混元 = 讯飞星火 = 百川智能 = 智谱清言 > 百度文心 = MINIMAX > 抖音云雀 国产大语言模型对于情感分析都很合理,意图分析中相差比较大,部分模型会产生幻觉和其他无关内容。 |
文心一言3.5
![]() | ![]() |
阿里通义千问
![]() | ![]() |
腾讯混元
![]() | ![]() |
讯飞星火
![]() | ![]() |
抖音云雀
![]() | ![]() |
智谱清言
![]() | ![]() |
百川智能
![]() | ![]() |
MINIMAX
![]() | ![]() |
国内大语言模型对比评测(二)
国内大语言模型对比评测(三)
这篇关于国内大语言模型对比评测(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!