景联文科技高质量大模型训练数据汇总!

2024-03-28 23:20

本文主要是介绍景联文科技高质量大模型训练数据汇总!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

3月25日,2024年中国发展高层论坛年会上,国家数据局局长刘烈宏在“释放数据要素价值,助力可持续发展”的演讲中表示,中国10亿参数规模以上的大模型数量已超100个。

当前,国内AI大模型发展仍面临诸多困境。其中,较为突出的就是高质量数据集的匮乏,这极大阻碍了大模型效果提升。特别是专业的行业应用数据集,其获取难度更大,这导致大模型可使用的数据量受到限制,进而对大模型效果形成阻碍。

景联文科技是大语言模型数据供应商,致力于为不同阶段的模型算法匹配高质量数据资源。

世界知识类书籍、期刊、论文及高价值社区文本数据:

  1. 中文书籍 250万本
  2. 高质量外文文献期刊 8500万篇
  3. 英文高质量电子书 200万本

教育题库:

  1. 千12教育题库 1800万
  2. 大学题库 1.1亿,800万带解析
  3. 英文题库 500万

专业知识类期刊、专利、代码:

  1. 中文数字专利 4000万
  2. 程序代码(代码注释) 20万

多轮对话:

  1. 文本多轮对话 1500万
  2. 中英文剧本(电影、电视剧、剧本杀) 6万

音频数据:

  1. 普通话 65万小时

图片生成及隐式/显示推理多模态数据:

  1. 图文复杂描述 600万
  2. 图文推理问答对 600万

生物数据

  1. 核酸库 4000万
  2. 蛋白库 50万
  3. 蛋白结构库 19万
  4. 通路库 1000万
  5. 生信工具

药学数据:

  1. 药物研发数据库 1300万
  2. 全球上市数据库 80万
  3. 一致性评价数据库 25万
  4. 生产检验数据库 40万
  5. 合理用药 300万
  6. 多维文献 1亿
  7. 原料药数据库 1100万

化学数据:

  1. 化合物数据库 1.6亿
  2. 反应信息数据库 4100万
  3. 物化性质数据库 1.6亿
  4. 谱图数据库 20万
  5. 晶体信息数据库 100万
  6. 安全信息数据库 180万
  7. 商品信息数据库 740万

材料数据:

  1. 金属材料数据 20万
  2. 纳米材料数据 30万
  3. 相图数据 6万
  4. 材料性能数据 20万
  5. 材料腐蚀数据
  6. 表面处理数据
  7. 焊接材料数据

专利数据:

  1. 全球专利基础著录数据 1.3亿
  2. 全球专利原文数据 1亿
  3. 全球专利附图数据
  4. 全球专利法律状态数据
  5. 全球专利法律状态数据
  6. 全球专利引文数据
  7. 全球专利分类索引数据
  8. 全球专利重点申请人工商关联数据
  9. 全球生化医药专利深加工数据
  10. 全球专利全文数据

医疗器械数据:

  1. 国内政策法规数据 3千
  2. 行业标准数据
  3. 中国医疗器械审评数据 20万
  4. 中国医械临床试验数据 5千
  5. 全球医械临床试验数据 7万
  6. 医用耗材中标数据 1400万
  7. 医用耗材带量采购数据 400万
  8. 医用设备招投标数据38万

同时景联文科技提供大模型训练数据的标注服务,致力于为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的多模态大模型训练数据。

景联文科技|数据采集|数据标注|大语言模型训练数据

助力人工智能技术,赋能传统产业智能转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

这篇关于景联文科技高质量大模型训练数据汇总!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/856973

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很