TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览

2024-03-23 22:08

本文主要是介绍TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif




一年一届的数据库领域顶级会议VLDB 2018即将于当地时间8月27日-8月31日在巴西里约热内卢召开。


在本届大会上,腾讯公司TDSQL团队携手中国人民大学、武汉大学共同投中一篇Demo Paper,该工作旨在分布式数据库TDSQL上高效地实现相似查询。


TDSQL团队一直在努力为用户提供丰富的功能、高效的性能和便捷的服务。


在大会召开之际,腾讯TDSQL团队对本届大会的论文佳作进行了分析,萃取了精华之精华以飨读者,分享技术,让我们一起共同成长。

640?wx_fmt=png


VLDB

VLDB 会议全称Very Large Data Bases Conferences,是由VLDB Endowment主办的数据库领域学术会议,旨在推广全世界数据库及相关领域的研究成果、促进领域内学术交流。


VLDB是数据库及相关领域研究者、供应商、参与者、应用开发者所广泛关注的主要国际会议,也是公认的数据库领域三大顶级会议 (SIGMOD、VLDB、ICDE) 之一,并且在发表论文难度和受关注程度上,与SIGMOD可谓并驾齐驱。


本次VLDB会议,腾讯公司也设立了展台,欢迎各位与会嘉宾、专家莅临交流。


VLDB 2018 概览

VLDB 2018会议历时5天,其中首尾日是Workshop(子研讨会),正会3天。


今年VLDB非常重视学术界和工业界交流。除12篇Industrial Paper之外,在Research Paper中也有大量工作由企业主导和参与。大会程序委员会中也有很多来自企业的Track Chair和审稿人。国内包括腾讯、阿里、华为等在内的多个企业都将在大会上设置展台与参会者进行交流。


今年VLDB上,中国高校和企业发表的论文数量超过20篇,但主要集中在图数据、空间和轨迹数据、数据挖掘与机器学习等领域,传统关系数据库 (RDBMS) 的研究工作较少。实际上RDBMS作为重要的基础软件,广泛应用在关系国计民生的各行各业,其核心技术的研发和突破也具有重要的意义(鹅厂的Demo paper就是基于腾讯的分布式数据库TDSQL实现的)。国内的一些企业,如腾讯、阿里、华为等正在大力投入RDBMS方面的研发。


本文主要从论文分布、技术发展动向、奇思妙想三个方面寻找今年VLDB论文中的看点。


640?wx_fmt=png


1.看论文分布

首先,我们看一下今年VLDB论文的分布情况。


各领域论文分布

尽管大会将论文按照主题分成了30个Research Session,但由于每个Session中论文报告个数的限制(4-5个),Session的划分比较简单粗暴,Session间的界限和层级关系并不非常清晰。因此我们阅读了全部论文的内容,根据论文所针对的应用和数据类型,将论文进行了更加细致的分类,便于大家了解各个领域的研究热度。

640?wx_fmt=jpeg

VLDB 2018各领域论文分布图


从上图可以看出,关系数据库 (RDBMS) 的研究仍然是主流,共包含42篇论文,占到论文总数近1/3。图数据相关论文数量也保持稳定(去年VLDB也有20多篇图数据相关论文)。在很多实际的业务中,关系数据和图数据也是最重要的数据类型。据可靠消息,今年VLDB最佳论文也来自图数据领域。而流数据、众包、空间和轨迹数据相关的研究比去年有明显减少,但论文数量的浮动并不完全说明领域的热度。


RDBMS中各子领域论文分布

在RDBMS中,我们进一步对各个子领域进行细分,参见图2。可见存储优化和查询优化是研究热点,占到了RDBMS中近一半的论文数量。而在同样核心但研究难度更大的事务处理、容错恢复领域,研究工作相对较少。

640?wx_fmt=jpeg

关系数据库各个子领域论文分布图


良好的架构也是RDBMS系统研发的关键。在面向分析的数据库中,用户交互和可视化也是关键的技术。几乎每年VLDB都有这些方面的看点。此外,云数据库、UDF等方面也有相关论文。


来自工业界的论文

据不完全统计,今年会议上企业独立发表论文14篇,企业与高校合作发表论文30篇,总共44篇,占到论文总数的近1/3,可见工业界在数据库研究中参与度之高。实际上,由于企业有更多的机会接触实际业务和生产系统,而高校有更多的新思路和更低的试错成本,企业和高校深入合作经常可以产出高质量的研发工作,这在今年的VLDB上也有体现,很多有看点的论文都来自企业和高校合作。


今年VLDB上,工业界的论文来自Microsoft、SAP、IBM、Google、Amazon、阿里、华为、Facebook、Twitter、HP、Yahoo等企业。在大会接收的48篇Demo中,也有来自微软、腾讯、IBM等企业的系统性研究工作。


2.看数据库技术发展动向

从VLDB的论文中,可以观察数据库领域的技术发展方向。我们对论文中的研究内容进行了思考,在这里罗列我们观察到的6个数据库技术发展动向。


新硬件

由于新的存储和计算硬件,如大内存、NVM、SSD、现代CPU、专用处理器和协处理器(GPU、FPGA等)的发展,除了Scale Out之外,数据库系统的Scale Up也是一个方向。如何利用好新的硬件资源、提高数据库系统的性能是本次大会中的研究热点之一。


 NoSQL向SQL融合

NoSQL曾经是一个火热的方向,而最近几年来却被提及得越来越少,相关研究工作也逐渐减少。那么NoSQL真的过时或者消失了吗?其实NoSQL的特性主要的是高吞吐、低延迟的数据写入与更新,而SQL仍然是开发者和数据分析师所钟爱的查询接口,很多NoSQL所欠缺的强一致性也是很多应用场景所必须的。


于是NoSQL逐渐向SQL融合,成为关系数据库的底层存储,向SQL回归。


在RocksDB、BigTable等分布式NoSQL存储上支持SQL的事务处理或者数据分析,对于SQL和NoSQL取长补短是数据库发展的一个重要方向。


 存算分离

高带宽、低延迟网络技术的发展,逐渐降低了分布式系统中的网络开销,数据和计算的绑定不再那么严格,而存储和计算本身的效率得到了重新的思考。


在云数据库中,存储和计算分离于是成为一个新的发展方向。存储和计算的分离提高了系统架构的灵活度,也便于针对存储和计算分别进行优化,更加充分地发挥硬件的性能、提高存储的可用性和效率。


分布式事务处理

分布式事务处理可以说是数据库领域的珠穆朗玛峰。要支持大规模的分布式事务处理,分布式数据一致性、并发控制等方面的研究挑战都非常大。在高吞吐的分布式数据库系统中,事务处理模块往往也是性能开销最大的部分。


In-database Computation

在数据库内支持复杂计算也是一个发展方向。目前数据分析人员通常需要从数据库中提取数据,再将查询结果导入到各种计算引擎中进一步处理。如果在数据库中可以执行复杂的计算,就可以节省数据拷贝、传输和转换的代价,也降低了维护和学习多套系统的成本。其实UDF也算是一种In-database Computation的形式。


图数据库

图数据在很多实际应用中也是非常重要的数据类型,图数据相关领域多年以来都是研究热点。据可靠消息,今年VLDB的最佳论文就是来自图数据领域的The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing,作者是来自滑铁卢大学的Siddhartha Sahu等人。


3.看奇思妙想

除了技术的主要发展方向,在一些具体的技术点上,今年的VLDB大会也有一些有意思的论文。这里介绍几个。


 大数据中间件

数据库中间件、消息队列中间件相信大家并不陌生,但是大数据中间件是什么?这只是一个形象的比喻。


 数据库社区如何做区块链

区块链是当前的热门话题,那么做数据库的人会怎么做区块链呢?可以看看本次大会上新加坡国立大学、北京理工大学、浙江大学合作的论文ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications.


 压缩数据的直接分析

 在大数据分析中,从序列化和压缩的数据中将数据解压并解析成应用程序可处理的数据对象的开销很大。


把多表连接优化用在CEP上

复杂事件处理 (CEP) 根据预定义的模式制定执行计划,将流数据中的多个基本的数据项组合起来,识别出复杂的事件。这是一个研究多年的领域,在流数据处理和实时数据分析中有很多应用。


帮数据分析找代码

数据分析人员要分析数据时,首先需要编写脚本和查询去各种数据源中抽取和转换数据。这是一个非常辛苦、非常无聊的过程。那么有人想过如何帮助分析师编写数据预处理的代码吗?


以上介绍了这么多,大家对VLDB是不是有了更多的了解呢?此时此刻,TDSQL团队仍在巴西里约热内卢,沐着和煦的冬风参加VLDB大会。相信接下来团队与会人员将会有更多的收获!在后续的文章中,他二哥也会继续为大家带来更多的现场报道和技术分享,期待大家继续关注今年VLDB的动态哦!


640?wx_fmt=png

这篇关于TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/839647

相关文章

MySQL数据库双机热备的配置方法详解

《MySQL数据库双机热备的配置方法详解》在企业级应用中,数据库的高可用性和数据的安全性是至关重要的,MySQL作为最流行的开源关系型数据库管理系统之一,提供了多种方式来实现高可用性,其中双机热备(M... 目录1. 环境准备1.1 安装mysql1.2 配置MySQL1.2.1 主服务器配置1.2.2 从

SpringBoot基于注解实现数据库字段回填的完整方案

《SpringBoot基于注解实现数据库字段回填的完整方案》这篇文章主要为大家详细介绍了SpringBoot如何基于注解实现数据库字段回填的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解... 目录数据库表pom.XMLRelationFieldRelationFieldMapping基础的一些代

使用Node.js和PostgreSQL构建数据库应用

《使用Node.js和PostgreSQL构建数据库应用》PostgreSQL是一个功能强大的开源关系型数据库,而Node.js是构建高效网络应用的理想平台,结合这两个技术,我们可以创建出色的数据驱动... 目录初始化项目与安装依赖建立数据库连接执行CRUD操作查询数据插入数据更新数据删除数据完整示例与最佳

Oracle数据库在windows系统上重启步骤

《Oracle数据库在windows系统上重启步骤》有时候在服务中重启了oracle之后,数据库并不能正常访问,下面:本文主要介绍Oracle数据库在windows系统上重启的相关资料,文中通过代... oracle数据库在Windows上重启的方法我这里是使用oracle自带的sqlplus工具实现的方

MySQL批量替换数据库字符集的实用方法(附详细代码)

《MySQL批量替换数据库字符集的实用方法(附详细代码)》当需要修改数据库编码和字符集时,通常需要对其下属的所有表及表中所有字段进行修改,下面:本文主要介绍MySQL批量替换数据库字符集的实用方法... 目录前言为什么要批量修改字符集?整体脚本脚本逻辑解析1. 设置目标参数2. 生成修改表默认字符集的语句3

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

如何通过try-catch判断数据库唯一键字段是否重复

《如何通过try-catch判断数据库唯一键字段是否重复》在MyBatis+MySQL中,通过try-catch捕获唯一约束异常可避免重复数据查询,优点是减少数据库交互、提升并发安全,缺点是异常处理开... 目录1、原理2、怎么理解“异常走的是数据库错误路径,开销比普通逻辑分支稍高”?1. 普通逻辑分支 v

Python与MySQL实现数据库实时同步的详细步骤

《Python与MySQL实现数据库实时同步的详细步骤》在日常开发中,数据同步是一项常见的需求,本篇文章将使用Python和MySQL来实现数据库实时同步,我们将围绕数据变更捕获、数据处理和数据写入这... 目录前言摘要概述:数据同步方案1. 基本思路2. mysql Binlog 简介实现步骤与代码示例1

使用shardingsphere实现mysql数据库分片方式

《使用shardingsphere实现mysql数据库分片方式》本文介绍如何使用ShardingSphere-JDBC在SpringBoot中实现MySQL水平分库,涵盖分片策略、路由算法及零侵入配置... 目录一、ShardingSphere 简介1.1 对比1.2 核心概念1.3 Sharding-Sp

Go语言连接MySQL数据库执行基本的增删改查

《Go语言连接MySQL数据库执行基本的增删改查》在后端开发中,MySQL是最常用的关系型数据库之一,本文主要为大家详细介绍了如何使用Go连接MySQL数据库并执行基本的增删改查吧... 目录Go语言连接mysql数据库准备工作安装 MySQL 驱动代码实现运行结果注意事项Go语言执行基本的增删改查准备工作