智源研究院推出全球首个包含文生视频的模型对战评测服务

本文主要是介绍智源研究院推出全球首个包含文生视频的模型对战评测服务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场,覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端,该服务还率先开放了国内首个移动端访问入口,为用户提供高效便捷的模型对战评测体验。

秉承FlagEval评测体系的科学、权威、公正、开放四大原则,大模型角斗场的评测过程采取匿名机制,在匿名对战中如出现已暴露或问题中试图暴露模型身份的对决评分将被视为无效,该条评测数据不对模型分数产生任何影响。

此外,FlagEval大模型角斗场网页端首次引入了主观倾向阶梯评分体系,包含A远好于B、A略好于B、AB差不多、A远好于B、B略好于A、B远好于A共5个梯度,其中“AB差不多”又分为“都好与都不好”。这一阶梯胜负评测方法,相较于传统的Arena仅有的三个评分等级(“A更优、B更优、两者相似”),更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,从而提供更丰富和深入的评测洞察。

为了降低评分细化带来的用户认知负荷增加,我们特别对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性,用户的舒适度和操作流畅性均表现出色。

用户提交倾向程度评分结果后,可立即查看该轮模型对战结果。FlagEval将对所有大模型角斗场用户评分进行汇总计算,根据收集的有效数据,最终形成角斗场榜单,对大模型对战能力进行公示。

为确保模型能力主观评测的覆盖范围,用户可与模型进行多轮交流和提问,以最大程度衡量模型输出与人类期望或偏好保持一致性。在模型匹配机制方面,FlagEval大模型角斗场采取均匀采样、分流随机抽取的方式,以确保公平性。在模型对战机制方面,不支持对战过程中进行模型切换,只支持重开一轮,对战结束后,不支持用户继续提问、更改评分。

FlagEval大模型角斗场可支持Runway、Pika以及爱诗科技PixVerse、快手可灵(性能版)、字节即梦2.0、智谱AI清影(Ying)、星火绘镜、Luma等国内外文生视频模型。用户可从预设问题中进行任意选择,覆盖场景、动物、人物、想象等能力类型。

智源研究院推出FlagEval大模型评测体系以来,持续迭代和优化,FlagEval大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。未来,智源将对模型对战评测的全链路数据,包括用户输入、模型输出的数据,进行开源,以促进大模型评测生态的发展。

扫描二维码进入FlagEval大模型角斗场移动端,

或访问官网体验模型对战 https://flageval.baai.ac.cn/#/home

这篇关于智源研究院推出全球首个包含文生视频的模型对战评测服务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1138849

相关文章

Spring Boot 与微服务入门实战详细总结

《SpringBoot与微服务入门实战详细总结》本文讲解SpringBoot框架的核心特性如快速构建、自动配置、零XML与微服务架构的定义、演进及优缺点,涵盖开发环境准备和HelloWorld实战... 目录一、Spring Boot 核心概述二、微服务架构详解1. 微服务的定义与演进2. 微服务的优缺点三

RabbitMQ消息总线方式刷新配置服务全过程

《RabbitMQ消息总线方式刷新配置服务全过程》SpringCloudBus通过消息总线与MQ实现微服务配置统一刷新,结合GitWebhooks自动触发更新,避免手动重启,提升效率与可靠性,适用于配... 目录前言介绍环境准备代码示例测试验证总结前言介绍在微服务架构中,为了更方便的向微服务实例广播消息,

升级至三频BE12000! 华硕ROG魔盒Pro路由器首发拆解评测

《升级至三频BE12000!华硕ROG魔盒Pro路由器首发拆解评测》华硕前两天推出新一代电竞无线路由器——ROG魔盒Pro(StrixGR7Pro),该产品在无线规格、硬件配置及功能设计上实现全... 作为路由器行业的T1梯队厂商,华硕近期发布了新旗舰华硕ROG魔盒Pro,除了保留DIY属性以外,高达120

关于DNS域名解析服务

《关于DNS域名解析服务》:本文主要介绍关于DNS域名解析服务,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录DNS系统的作用及类型DNS使用的协议及端口号DNS系统的分布式数据结构DNS的分布式互联网解析库域名体系结构两种查询方式DNS服务器类型统计构建DNS域

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

Linux中SSH服务配置的全面指南

《Linux中SSH服务配置的全面指南》作为网络安全工程师,SSH(SecureShell)服务的安全配置是我们日常工作中不可忽视的重要环节,本文将从基础配置到高级安全加固,全面解析SSH服务的各项参... 目录概述基础配置详解端口与监听设置主机密钥配置认证机制强化禁用密码认证禁止root直接登录实现双因素

java向微信服务号发送消息的完整步骤实例

《java向微信服务号发送消息的完整步骤实例》:本文主要介绍java向微信服务号发送消息的相关资料,包括申请测试号获取appID/appsecret、关注公众号获取openID、配置消息模板及代码... 目录步骤1. 申请测试系统2. 公众号账号信息3. 关注测试号二维码4. 消息模板接口5. Java测试

SpringBoot服务获取Pod当前IP的两种方案

《SpringBoot服务获取Pod当前IP的两种方案》在Kubernetes集群中,SpringBoot服务获取Pod当前IP的方案主要有两种,通过环境变量注入或通过Java代码动态获取网络接口IP... 目录方案一:通过 Kubernetes Downward API 注入环境变量原理步骤方案二:通过

如何搭建并配置HTTPD文件服务及访问权限控制

《如何搭建并配置HTTPD文件服务及访问权限控制》:本文主要介绍如何搭建并配置HTTPD文件服务及访问权限控制的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、安装HTTPD服务二、HTTPD服务目录结构三、配置修改四、服务启动五、基于用户访问权限控制六、

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可