智源研究院推出全球首个包含文生视频的模型对战评测服务

本文主要是介绍智源研究院推出全球首个包含文生视频的模型对战评测服务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场,覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端,该服务还率先开放了国内首个移动端访问入口,为用户提供高效便捷的模型对战评测体验。

秉承FlagEval评测体系的科学、权威、公正、开放四大原则,大模型角斗场的评测过程采取匿名机制,在匿名对战中如出现已暴露或问题中试图暴露模型身份的对决评分将被视为无效,该条评测数据不对模型分数产生任何影响。

此外,FlagEval大模型角斗场网页端首次引入了主观倾向阶梯评分体系,包含A远好于B、A略好于B、AB差不多、A远好于B、B略好于A、B远好于A共5个梯度,其中“AB差不多”又分为“都好与都不好”。这一阶梯胜负评测方法,相较于传统的Arena仅有的三个评分等级(“A更优、B更优、两者相似”),更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,从而提供更丰富和深入的评测洞察。

为了降低评分细化带来的用户认知负荷增加,我们特别对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性,用户的舒适度和操作流畅性均表现出色。

用户提交倾向程度评分结果后,可立即查看该轮模型对战结果。FlagEval将对所有大模型角斗场用户评分进行汇总计算,根据收集的有效数据,最终形成角斗场榜单,对大模型对战能力进行公示。

为确保模型能力主观评测的覆盖范围,用户可与模型进行多轮交流和提问,以最大程度衡量模型输出与人类期望或偏好保持一致性。在模型匹配机制方面,FlagEval大模型角斗场采取均匀采样、分流随机抽取的方式,以确保公平性。在模型对战机制方面,不支持对战过程中进行模型切换,只支持重开一轮,对战结束后,不支持用户继续提问、更改评分。

FlagEval大模型角斗场可支持Runway、Pika以及爱诗科技PixVerse、快手可灵(性能版)、字节即梦2.0、智谱AI清影(Ying)、星火绘镜、Luma等国内外文生视频模型。用户可从预设问题中进行任意选择,覆盖场景、动物、人物、想象等能力类型。

智源研究院推出FlagEval大模型评测体系以来,持续迭代和优化,FlagEval大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。未来,智源将对模型对战评测的全链路数据,包括用户输入、模型输出的数据,进行开源,以促进大模型评测生态的发展。

扫描二维码进入FlagEval大模型角斗场移动端,

或访问官网体验模型对战 https://flageval.baai.ac.cn/#/home

这篇关于智源研究院推出全球首个包含文生视频的模型对战评测服务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1138849

相关文章

Linux创建服务使用systemctl管理详解

《Linux创建服务使用systemctl管理详解》文章指导在Linux中创建systemd服务,设置文件权限为所有者读写、其他只读,重新加载配置,启动服务并检查状态,确保服务正常运行,关键步骤包括权... 目录创建服务 /usr/lib/systemd/system/设置服务文件权限:所有者读写js,其他

Vue3视频播放组件 vue3-video-play使用方式

《Vue3视频播放组件vue3-video-play使用方式》vue3-video-play是Vue3的视频播放组件,基于原生video标签开发,支持MP4和HLS流,提供全局/局部引入方式,可监听... 目录一、安装二、全局引入三、局部引入四、基本使用五、事件监听六、播放 HLS 流七、更多功能总结在 v

Java服务实现开启Debug远程调试

《Java服务实现开启Debug远程调试》文章介绍如何通过JVM参数开启Java服务远程调试,便于在线上排查问题,在IDEA中配置客户端连接,实现无需频繁部署的调试,提升效率... 目录一、背景二、相关图示说明三、具体操作步骤1、服务端配置2、客户端配置总结一、背景日常项目中,通常我们的代码都是部署到远程

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

sysmain服务可以禁用吗? 电脑sysmain服务关闭后的影响与操作指南

《sysmain服务可以禁用吗?电脑sysmain服务关闭后的影响与操作指南》在Windows系统中,SysMain服务(原名Superfetch)作为一个旨在提升系统性能的关键组件,一直备受用户关... 在使用 Windows 系统时,有时候真有点像在「开盲盒」。全新安装系统后的「默认设置」,往往并不尽编

Python 基于http.server模块实现简单http服务的代码举例

《Python基于http.server模块实现简单http服务的代码举例》Pythonhttp.server模块通过继承BaseHTTPRequestHandler处理HTTP请求,使用Threa... 目录测试环境代码实现相关介绍模块简介类及相关函数简介参考链接测试环境win11专业版python

Nginx中配置使用非默认80端口进行服务的完整指南

《Nginx中配置使用非默认80端口进行服务的完整指南》在实际生产环境中,我们经常需要将Nginx配置在其他端口上运行,本文将详细介绍如何在Nginx中配置使用非默认端口进行服务,希望对大家有所帮助... 目录一、为什么需要使用非默认端口二、配置Nginx使用非默认端口的基本方法2.1 修改listen指令

SysMain服务可以关吗? 解决SysMain服务导致的高CPU使用率问题

《SysMain服务可以关吗?解决SysMain服务导致的高CPU使用率问题》SysMain服务是超级预读取,该服务会记录您打开应用程序的模式,并预先将它们加载到内存中以节省时间,但它可能占用大量... 在使用电脑的过程中,CPU使用率居高不下是许多用户都遇到过的问题,其中名为SysMain的服务往往是罪魁

解决若依微服务框架启动报错的问题

《解决若依微服务框架启动报错的问题》Invalidboundstatement错误通常由MyBatis映射文件未正确加载或Nacos配置未读取导致,需检查XML的namespace与方法ID是否匹配,... 目录ruoyi-system模块报错报错详情nacos文件目录总结ruoyi-systnGLNYpe

Nginx进行平滑升级的实战指南(不中断服务版本更新)

《Nginx进行平滑升级的实战指南(不中断服务版本更新)》Nginx的平滑升级(也称为热升级)是一种在不停止服务的情况下更新Nginx版本或添加模块的方法,这种升级方式确保了服务的高可用性,避免了因升... 目录一.下载并编译新版Nginx1.下载解压2.编译二.替换可执行文件,并平滑升级1.替换可执行文件