TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览

2024-03-23 22:08

本文主要是介绍TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif




一年一届的数据库领域顶级会议VLDB 2018即将于当地时间8月27日-8月31日在巴西里约热内卢召开。


在本届大会上,腾讯公司TDSQL团队携手中国人民大学、武汉大学共同投中一篇Demo Paper,该工作旨在分布式数据库TDSQL上高效地实现相似查询。


TDSQL团队一直在努力为用户提供丰富的功能、高效的性能和便捷的服务。


在大会召开之际,腾讯TDSQL团队对本届大会的论文佳作进行了分析,萃取了精华之精华以飨读者,分享技术,让我们一起共同成长。

640?wx_fmt=png


VLDB

VLDB 会议全称Very Large Data Bases Conferences,是由VLDB Endowment主办的数据库领域学术会议,旨在推广全世界数据库及相关领域的研究成果、促进领域内学术交流。


VLDB是数据库及相关领域研究者、供应商、参与者、应用开发者所广泛关注的主要国际会议,也是公认的数据库领域三大顶级会议 (SIGMOD、VLDB、ICDE) 之一,并且在发表论文难度和受关注程度上,与SIGMOD可谓并驾齐驱。


本次VLDB会议,腾讯公司也设立了展台,欢迎各位与会嘉宾、专家莅临交流。


VLDB 2018 概览

VLDB 2018会议历时5天,其中首尾日是Workshop(子研讨会),正会3天。


今年VLDB非常重视学术界和工业界交流。除12篇Industrial Paper之外,在Research Paper中也有大量工作由企业主导和参与。大会程序委员会中也有很多来自企业的Track Chair和审稿人。国内包括腾讯、阿里、华为等在内的多个企业都将在大会上设置展台与参会者进行交流。


今年VLDB上,中国高校和企业发表的论文数量超过20篇,但主要集中在图数据、空间和轨迹数据、数据挖掘与机器学习等领域,传统关系数据库 (RDBMS) 的研究工作较少。实际上RDBMS作为重要的基础软件,广泛应用在关系国计民生的各行各业,其核心技术的研发和突破也具有重要的意义(鹅厂的Demo paper就是基于腾讯的分布式数据库TDSQL实现的)。国内的一些企业,如腾讯、阿里、华为等正在大力投入RDBMS方面的研发。


本文主要从论文分布、技术发展动向、奇思妙想三个方面寻找今年VLDB论文中的看点。


640?wx_fmt=png


1.看论文分布

首先,我们看一下今年VLDB论文的分布情况。


各领域论文分布

尽管大会将论文按照主题分成了30个Research Session,但由于每个Session中论文报告个数的限制(4-5个),Session的划分比较简单粗暴,Session间的界限和层级关系并不非常清晰。因此我们阅读了全部论文的内容,根据论文所针对的应用和数据类型,将论文进行了更加细致的分类,便于大家了解各个领域的研究热度。

640?wx_fmt=jpeg

VLDB 2018各领域论文分布图


从上图可以看出,关系数据库 (RDBMS) 的研究仍然是主流,共包含42篇论文,占到论文总数近1/3。图数据相关论文数量也保持稳定(去年VLDB也有20多篇图数据相关论文)。在很多实际的业务中,关系数据和图数据也是最重要的数据类型。据可靠消息,今年VLDB最佳论文也来自图数据领域。而流数据、众包、空间和轨迹数据相关的研究比去年有明显减少,但论文数量的浮动并不完全说明领域的热度。


RDBMS中各子领域论文分布

在RDBMS中,我们进一步对各个子领域进行细分,参见图2。可见存储优化和查询优化是研究热点,占到了RDBMS中近一半的论文数量。而在同样核心但研究难度更大的事务处理、容错恢复领域,研究工作相对较少。

640?wx_fmt=jpeg

关系数据库各个子领域论文分布图


良好的架构也是RDBMS系统研发的关键。在面向分析的数据库中,用户交互和可视化也是关键的技术。几乎每年VLDB都有这些方面的看点。此外,云数据库、UDF等方面也有相关论文。


来自工业界的论文

据不完全统计,今年会议上企业独立发表论文14篇,企业与高校合作发表论文30篇,总共44篇,占到论文总数的近1/3,可见工业界在数据库研究中参与度之高。实际上,由于企业有更多的机会接触实际业务和生产系统,而高校有更多的新思路和更低的试错成本,企业和高校深入合作经常可以产出高质量的研发工作,这在今年的VLDB上也有体现,很多有看点的论文都来自企业和高校合作。


今年VLDB上,工业界的论文来自Microsoft、SAP、IBM、Google、Amazon、阿里、华为、Facebook、Twitter、HP、Yahoo等企业。在大会接收的48篇Demo中,也有来自微软、腾讯、IBM等企业的系统性研究工作。


2.看数据库技术发展动向

从VLDB的论文中,可以观察数据库领域的技术发展方向。我们对论文中的研究内容进行了思考,在这里罗列我们观察到的6个数据库技术发展动向。


新硬件

由于新的存储和计算硬件,如大内存、NVM、SSD、现代CPU、专用处理器和协处理器(GPU、FPGA等)的发展,除了Scale Out之外,数据库系统的Scale Up也是一个方向。如何利用好新的硬件资源、提高数据库系统的性能是本次大会中的研究热点之一。


 NoSQL向SQL融合

NoSQL曾经是一个火热的方向,而最近几年来却被提及得越来越少,相关研究工作也逐渐减少。那么NoSQL真的过时或者消失了吗?其实NoSQL的特性主要的是高吞吐、低延迟的数据写入与更新,而SQL仍然是开发者和数据分析师所钟爱的查询接口,很多NoSQL所欠缺的强一致性也是很多应用场景所必须的。


于是NoSQL逐渐向SQL融合,成为关系数据库的底层存储,向SQL回归。


在RocksDB、BigTable等分布式NoSQL存储上支持SQL的事务处理或者数据分析,对于SQL和NoSQL取长补短是数据库发展的一个重要方向。


 存算分离

高带宽、低延迟网络技术的发展,逐渐降低了分布式系统中的网络开销,数据和计算的绑定不再那么严格,而存储和计算本身的效率得到了重新的思考。


在云数据库中,存储和计算分离于是成为一个新的发展方向。存储和计算的分离提高了系统架构的灵活度,也便于针对存储和计算分别进行优化,更加充分地发挥硬件的性能、提高存储的可用性和效率。


分布式事务处理

分布式事务处理可以说是数据库领域的珠穆朗玛峰。要支持大规模的分布式事务处理,分布式数据一致性、并发控制等方面的研究挑战都非常大。在高吞吐的分布式数据库系统中,事务处理模块往往也是性能开销最大的部分。


In-database Computation

在数据库内支持复杂计算也是一个发展方向。目前数据分析人员通常需要从数据库中提取数据,再将查询结果导入到各种计算引擎中进一步处理。如果在数据库中可以执行复杂的计算,就可以节省数据拷贝、传输和转换的代价,也降低了维护和学习多套系统的成本。其实UDF也算是一种In-database Computation的形式。


图数据库

图数据在很多实际应用中也是非常重要的数据类型,图数据相关领域多年以来都是研究热点。据可靠消息,今年VLDB的最佳论文就是来自图数据领域的The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing,作者是来自滑铁卢大学的Siddhartha Sahu等人。


3.看奇思妙想

除了技术的主要发展方向,在一些具体的技术点上,今年的VLDB大会也有一些有意思的论文。这里介绍几个。


 大数据中间件

数据库中间件、消息队列中间件相信大家并不陌生,但是大数据中间件是什么?这只是一个形象的比喻。


 数据库社区如何做区块链

区块链是当前的热门话题,那么做数据库的人会怎么做区块链呢?可以看看本次大会上新加坡国立大学、北京理工大学、浙江大学合作的论文ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications.


 压缩数据的直接分析

 在大数据分析中,从序列化和压缩的数据中将数据解压并解析成应用程序可处理的数据对象的开销很大。


把多表连接优化用在CEP上

复杂事件处理 (CEP) 根据预定义的模式制定执行计划,将流数据中的多个基本的数据项组合起来,识别出复杂的事件。这是一个研究多年的领域,在流数据处理和实时数据分析中有很多应用。


帮数据分析找代码

数据分析人员要分析数据时,首先需要编写脚本和查询去各种数据源中抽取和转换数据。这是一个非常辛苦、非常无聊的过程。那么有人想过如何帮助分析师编写数据预处理的代码吗?


以上介绍了这么多,大家对VLDB是不是有了更多的了解呢?此时此刻,TDSQL团队仍在巴西里约热内卢,沐着和煦的冬风参加VLDB大会。相信接下来团队与会人员将会有更多的收获!在后续的文章中,他二哥也会继续为大家带来更多的现场报道和技术分享,期待大家继续关注今年VLDB的动态哦!


640?wx_fmt=png

这篇关于TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/839647

相关文章

Oracle数据库定时备份脚本方式(Linux)

《Oracle数据库定时备份脚本方式(Linux)》文章介绍Oracle数据库自动备份方案,包含主机备份传输与备机解压导入流程,强调需提前全量删除原库数据避免报错,并需配置无密传输、定时任务及验证脚本... 目录说明主机脚本备机上自动导库脚本整个自动备份oracle数据库的过程(建议全程用root用户)总结

虚拟机Centos7安装MySQL数据库实践

《虚拟机Centos7安装MySQL数据库实践》用户分享在虚拟机安装MySQL的全过程及常见问题解决方案,包括处理GPG密钥、修改密码策略、配置远程访问权限及防火墙设置,最终通过关闭防火墙和停止Net... 目录安装mysql数据库下载wget命令下载MySQL安装包安装MySQL安装MySQL服务安装完成

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

SQL server数据库如何下载和安装

《SQLserver数据库如何下载和安装》本文指导如何下载安装SQLServer2022评估版及SSMS工具,涵盖安装配置、连接字符串设置、C#连接数据库方法和安全注意事项,如混合验证、参数化查... 目录第一步:打开官网下载对应文件第二步:程序安装配置第三部:安装工具SQL Server Manageme

C#连接SQL server数据库命令的基本步骤

《C#连接SQLserver数据库命令的基本步骤》文章讲解了连接SQLServer数据库的步骤,包括引入命名空间、构建连接字符串、使用SqlConnection和SqlCommand执行SQL操作,... 目录建议配合使用:如何下载和安装SQL server数据库-CSDN博客1. 引入必要的命名空间2.

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

MySQL数据库中ENUM的用法是什么详解

《MySQL数据库中ENUM的用法是什么详解》ENUM是一个字符串对象,用于指定一组预定义的值,并可在创建表时使用,下面:本文主要介绍MySQL数据库中ENUM的用法是什么的相关资料,文中通过代码... 目录mysql 中 ENUM 的用法一、ENUM 的定义与语法二、ENUM 的特点三、ENUM 的用法1

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、