陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台

本文主要是介绍陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章导读

本文介绍了OpenKG在区块链方向的一些实践和尝试。经过一年努力,OpenKG初步完成了底层区块链平台测试,以及OpenKG数据集、工具集和Openbase细粒度知识众包的上链测试工作。在这个测试平台中,已包含1033位确权的知识贡献者。上链测试两个月,累计由真实知识消费者触发的知识点亮和链上存证次数已达55万次(日均峰值一万多次),并首次测试实现了实体/三元组粒度的知识确权。目前,通过OpenKG发布的开放图谱和开源工具,以及通过Openbase众包采集的三元组,OpenKG都在链上进行存证操作,并计算和分配产生的荣誉值。OpenKG希望通过这项工作为知识图谱社区提供更加可信、可溯源的知识众包平台。

本文也梳理了在OpenKG上链实践过程中的一些思考:知识是有价值的,即使是权限可控的单一机构内部,知识来源也是多样化的,必定存在知识的价值量化、确权、溯源、隐私及可信等多方面问题。要在知识生产和消费闭环中平衡知识的责、权、利,并有效的激励众包,一种方法就是让知识上链,并构建知识的区块链系统。OpenKG作为新技术测试床,在相关方向努力做一些粗浅尝试,也希望为各企业机构建立知识图谱众包平台提供参考。在实践过程中,我们也发现很多问题和挑战,如细粒度知识确权带来的性能问题、细粒度知识众包的价值计算公平性问题、知识图谱的去中心化存储问题等,这些都需要更深入的研究和实践。

本文作者:陈华钧(浙江大学)、胡凝(Onchain)、漆桂林(东南大学)、王昊奋(同济大学)毕桢(浙江大学)、李捷(Onchain)、杨帆(浙江大学)

版权声明:本文版权归OpenKG及作者所有,转发及摘录请注明来源


目录

1. 知识图谱的价值联邦

1.1 从语义网的三个内涵说起

1.2 知识的价值链

1.3 联邦知识图谱众包

2 知识图谱与区块链

 2.1 关于区块链与分布式账本

 2.2 链上知识:知识的区块链

 2.3 开放知识图谱与区块链

3 OpenKG上链:链上的知识图谱

 3.1 OpenKG上链架构

 3.2 OpenKG的价值模型

 3.2.1 K-Point:知识价值度量

 3.2.2 OpenKG Token:荣誉值度量

 3.3. OpenKG区块链的技术实现

 3.3.1 OpenKG上链基本技术架构

 3.3.2 OpenKG中的知识确权

 3.3.3 OpenKG的知识溯源

 3.3.4 OpenKG的可信度量

 3.3.5 OpenKG区块链启动方案

 3.4 OpenKG.CN上链实践:数据集与工具集上链

 3.4.1 OpenKG.CN简介 

 3.4.2 图谱资源注册与上链

 3.4.3 图谱资源的价值点亮

 3.5 OpenBase上链实践:细粒度知识的上链

 3.5.1 OpenBase简介

 3.5.2 细粒度知识上链

 3.5.3 细粒度的知识点亮

4 总结与展望

5 致谢


1. 知识图谱的价值联邦

1.1 从语义网的三个内涵说起

知识图谱的早期理念源于Web之父 Tim Berners Lee 关于语义网(The Semantic Web) 的设想,旨在采用图的结构来建模和记录世界万物之间的关联关系,并沉淀关于万物的知识。经过近二十年的发展,知识图谱的相关技术已经在搜索引擎、智能问答、语言及视觉理解、大数据决策分析、智能设备物联等众多领域得到广泛应用,被公认为是实现认知智能和智能互联的重要基石。

尽管知识图谱技术取得飞速进步,但仍然仅实现了语义网的三分之一的愿景。根据Tim Berners Lee的早期设想,语义互联网的目标是“Using the WWW infrastructure to create a global, decentralized, weblike mesh of machine-processable knowledge”。这有三个方面的内涵:知识互联、去中心化和知识的可信。三个内涵分别对应互联网的三个核心问题。

  • 知识互联旨在设计一种统一的知识表示框架来将分散的数据相互关联起来,以便利用图的结构特点来实现体验更好的搜索、问答、分析等能力。早期的Linked Data即是这一理念的体现。而知识图谱则是目前知识互联最有影响力的体现。

  • 去中心化是对Web架构的设想。尽管Web仍然没有实现去中心化设计,但互联网数据具有分散自治的特点,知识的生产者理应拥有知识的所有权和控制权。因此,去中心化构想反映的是对知识确权的要求。

  • 知识的可信是指通过互联网发布的知识应该是可溯责的(Accountability)。由于互联网的开放性和匿名性,知识可能真假难辨,且会随着时间真假发生变化。因此,合理的知识发布机制还需要对知识进行可信度量和鉴别真假。

这三个内涵第一个与知识的表示框架有关,第二个与互联网的分布式架构有关,第三个与互联网的社会属性有关。而当前的企业级知识图谱管理架构主要考虑知识的互联,而忽视或弱化了知识的价值量化、分布式确权和可信度量等众多问题。

1.2 知识的价值链

  • 知识是有价值的

知识是有价值的。互联网中的知识之间存在相关性,这些知识相互链接,形成知识图谱。互联网作为知识保存的一个载体,同时支持知识使用的场景,也承载新知识的产生。更为具体来说互联网知识有以下几个特性:

  1. 知识图谱包含知识和知识之间的联系;

  2. 知识节点存在价值,知识的联系也有价值;

  3. 知识因为“被使用”而产生价值;

  4. 被“证伪”的知识也存在价值,甚至在某些场景中,“反知识”更加令人记忆深刻;

  5. 知识的价值可以随着知识的联系进行传递。

  • 知识的责、权、利

知识图谱技术强调将分散的碎片化数据相互关联、链接融合。即使是在单一的企业或机构内部,知识图谱的数据也通常来源于不同部门。知识图谱的构建通常需要依靠多部门协作完成。因此,一个好的知识图谱的构建平台需要有明晰的责、权、利方面的考虑,而非仅仅考虑数据清洗、算法抽取、协同编辑等功能。

如图1所示,从知识的生产者的视角,首先要考虑知识的价值量化方法。简单的价值量化模型可以依据知识的使用频率,即知识被使用的越多,知识的价值越高。合理的价值量化是知识众包激励的基本前提。

其次,要考量知识的所有权和控制权保护,即:知识确权。即便在一个权限可集中控制的企业内部,由于知识图谱中的知识粒度很细,在三元组级别考虑知识的确权问题也带来极大的技术挑战。知识的合理确权也是知识众包激励的基本保障。

再次,知识产生的结果未必总是正面的,错误、虚假甚至恶意的知识会给下游的知识使用者带来不利后果,因此不仅要考虑知识获取的正面激励,还需要提供必要的机制来追溯知识的来源,即:知识溯责(Accountability)。有效的知识溯责,可以帮助提升知识图谱的众包质量,对抗虚假和恶意的知识输入。

更进一步,知识最终需要解决知识的可信问题,即:可信度量。知识图谱中的每条三元组代表对客观世界的一条事实描述。这些事实型知识不仅有真假纬度的可信问题,也因为很多事实本身具有不确定和时效性,也带来知识不确定的可信度量问题。

             

图1. 知识图谱的价值联邦

  • 知识的价值点亮与传播

知识的消费是衡量知识价值最直接的方式。知识被用得越多,知识的价值越高。同时知识的消费触发知识的价值传播。我们将知识被消费的过程称为知识的价值点亮。知识图谱使用场景支持不同的知识使用者有限的“点亮”知识图谱中的节点,从而触发知识传播。

“搜索点亮”是指知识的使用者在搜索过程对知识进行消费,从而触发被搜索知识条目的价值点亮。知识图谱支持语义关联搜索,进一步的关联搜索将继续触发新的知识点亮。每一步点亮都对产生的价值进行记录和存证。同时由于知识来源于不同的生产者,价值也需要以合理的方式分配给价值传播链上对应的知识生产者。

“问答点亮”和“搜索点亮”比较类似,消费者和知识库进行问答交互的过程即是消费过程。被问答触及的知识条目是被问答点亮的知识,问答检索过程中从起始节点到达答案节点所遍历的中间节点也将被点亮和价值存证。

“推理点亮”是指推理过程触发的知识点亮。知识图谱中的知识通常是不完备的,对知识图谱的推理过程是基于知识图谱中的已有知识完成。同时,由于知识来源众多,推理点亮的过程可能也是以联邦的方式完成,即:联邦推理点亮。

“分析点亮”是指将来源不同的知识进行综合分析从而不断触发知识图谱中相关知识的点亮过程。同样的,由于知识来源多样,分析的过程也可能是以联邦方式完成的,比如可能通过联邦学习的方式建立分析模型。

如下图(横轴代表时间,每条曲线都经过校准,以便在同一坐标系内可见):

             

图2. 知识的价值曲线

 

这篇关于陈华钧等 | OpenKG区块链:构建可信开放的联邦知识图谱平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/851118

相关文章

基于Python构建一个高效词汇表

《基于Python构建一个高效词汇表》在自然语言处理(NLP)领域,构建高效的词汇表是文本预处理的关键步骤,本文将解析一个使用Python实现的n-gram词频统计工具,感兴趣的可以了解下... 目录一、项目背景与目标1.1 技术需求1.2 核心技术栈二、核心代码解析2.1 数据处理函数2.2 数据处理流程

Python FastMCP构建MCP服务端与客户端的详细步骤

《PythonFastMCP构建MCP服务端与客户端的详细步骤》MCP(Multi-ClientProtocol)是一种用于构建可扩展服务的通信协议框架,本文将使用FastMCP搭建一个支持St... 目录简介环境准备服务端实现(server.py)客户端实现(client.py)运行效果扩展方向常见问题结

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

详解如何使用Python从零开始构建文本统计模型

《详解如何使用Python从零开始构建文本统计模型》在自然语言处理领域,词汇表构建是文本预处理的关键环节,本文通过Python代码实践,演示如何从原始文本中提取多尺度特征,并通过动态调整机制构建更精确... 目录一、项目背景与核心思想二、核心代码解析1. 数据加载与预处理2. 多尺度字符统计3. 统计结果可

一文教你Java如何快速构建项目骨架

《一文教你Java如何快速构建项目骨架》在Java项目开发过程中,构建项目骨架是一项繁琐但又基础重要的工作,Java领域有许多代码生成工具可以帮助我们快速完成这一任务,下面就跟随小编一起来了解下... 目录一、代码生成工具概述常用 Java 代码生成工具简介代码生成工具的优势二、使用 MyBATis Gen

Python使用Reflex构建现代Web应用的完全指南

《Python使用Reflex构建现代Web应用的完全指南》这篇文章为大家深入介绍了Reflex框架的设计理念,技术特性,项目结构,核心API,实际开发流程以及与其他框架的对比和部署建议,感兴趣的小伙... 目录什么是 ReFlex?为什么选择 Reflex?安装与环境配置构建你的第一个应用核心概念解析组件

Python+wxPython构建图像编辑器

《Python+wxPython构建图像编辑器》图像编辑应用是学习GUI编程和图像处理的绝佳项目,本教程中,我们将使用wxPython,一个跨平台的PythonGUI工具包,构建一个简单的... 目录引言环境设置创建主窗口加载和显示图像实现绘制工具矩形绘制箭头绘制文字绘制临时绘制处理缩放和旋转缩放旋转保存编

在.NET平台使用C#为PDF添加各种类型的表单域的方法

《在.NET平台使用C#为PDF添加各种类型的表单域的方法》在日常办公系统开发中,涉及PDF处理相关的开发时,生成可填写的PDF表单是一种常见需求,与静态PDF不同,带有**表单域的文档支持用户直接在... 目录引言使用 PdfTextBoxField 添加文本输入域使用 PdfComboBoxField

Java中的StringBuilder之如何高效构建字符串

《Java中的StringBuilder之如何高效构建字符串》本文将深入浅出地介绍StringBuilder的使用方法、性能优势以及相关字符串处理技术,结合代码示例帮助读者更好地理解和应用,希望对大家... 目录关键点什么是 StringBuilder?为什么需要 StringBuilder?如何使用 St

一文详解Java异常处理你都了解哪些知识

《一文详解Java异常处理你都了解哪些知识》:本文主要介绍Java异常处理的相关资料,包括异常的分类、捕获和处理异常的语法、常见的异常类型以及自定义异常的实现,文中通过代码介绍的非常详细,需要的朋... 目录前言一、什么是异常二、异常的分类2.1 受检异常2.2 非受检异常三、异常处理的语法3.1 try-