google f1 mysql_数据库NewSQL之谷歌F1系统

2024-02-27 21:10

本文主要是介绍google f1 mysql_数据库NewSQL之谷歌F1系统,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

介绍

谷歌对数据系统性能有极高的要求,MySQL这样的系统都很难令其满意,所以谷歌设计F1数据库,其目标是让其具备高度的可扩展性和高度稳定性,除了必备的SQL语言支持外,F1还提供ad hoc类型查询。

基本构架

243644_0.png

用户通过客户端语料库(client library)和F1交互。用户发出的请求首先送到某个F1服务器,F1服务器负责之后的任务分配和数据处理。

为了减少处理请求造成的延时(latency),F1的客户端和与之直接相连的负载均衡器会首先向最近的F1服务器相连,但是如果附近的F1服务器非常繁忙或者出现故障,那么就会找其他远一点的服务器。

F1服务器通常和spanner服务器放在一个数据中心,因为这样可以提高数据读写的速度,不过F1服务器也可以连接其他数据中心的spanner服务器。spanner从一个叫做CFS(Colossus File System)的文件系统调取数据,相连的spanner和CFS永远是在同一个数据中心的,也就是说,某个数据中心的spanner不会和另一个数据中心的CFS相连。

因为F1服务器没有存储数据,F1服务器可以根据访问流量的大小随意增减。

整个F1系统处理请求可以在单个节点上完成,也可以在多个节点上分布完成,关键看哪个延时更小。如果是用分布式的方式处理请求,F1会指定多个进程(process)来完成,一个从属服务器(slave server)接管一个进程。多个从属服务器由一个主服务器(master server)管理。F1也支持MapReduce。

Spanner

F1和spanner是同时被研究开发出来的,但是spanner更加偏向于底层处理,例如缓存,数据共享和搬运,数据位置计算等等。

F1本身是关系型数据库,所以数据是一行一行地放在了列表(table)里。spanner将所有数据分成了一个个由很多行数据组成的集群(cluster),或者叫做目录(directory)。每一个目录至少有一个分段(fragment),大的目录通常有好几个分段。一个目录的多个分段组成了一个组(group),每一个数据中心存放了一个组的副本。

spanner在处理查询语句的时候使用二阶段锁(two-phase locking)和二阶段提交(two-phase commit),这样信息交互在网络中增加了一倍,增加了延时。为了保证数据的一致性(consistency),spanner使用时间戳(timestamp)给每一条事务排序,保证全球的事务有序执行。

数据模型

F1的数据模型和关系型数据库相似,都有数据概要(schema),但在此基础上也有扩展。

F1数据概要下的表格(table)是分层的。子表格(child table)里面的所有key必须包含母表格(parent table)里面的key。根表格(root table)里的每一行叫做根行(root row),所有根据某条根行衍生出来的子表格行组成一个spanner目录

Protocol Buffers

普通数据库的一个缺点是,数据结构里的数据要通过繁琐的代码转换成数据库数据之后才能被存入数据库,谷歌使用Protocol Buffer语料库(library),使得表格的每一列支持结构化数据类型。

数据索引

F1有两种索引,一种是局域索引(local index),局域索引的key必须包含根行的key作为前缀。局域索引的key和索引到的结果都和实际的根行放在同一个spanner目录下,所以局域索引的修改占用了事务中很少的一部分用时。

另一种索引是全局索引(global index)。和局域索引不同的是,全局索引的key不包含根行的key,并且和索引的数据分开存放。很多目录都可以访问全局索引,全局索引存放在多个spanner服务器里。如果修改了一条被索引的行,那么更新索引就需要用到2PC(2 phase commit)。全局索引在扩展性方面做得不是很好。比如说,一个新增1000行数据的事务会让索引新增几百条记录,2PC处理这几百条新增的记录会变得很慢。目前谷歌正在研究让全局索引有更好地扩展性的方法。

修改数据概要(schema)

F1数据库是一个全球范围的数据库,这意味着世界上所有人都可以修改里面的同一份数据概要,谷歌要求在这个过程中不允许出现任何故障或者表格上锁(table locking)。

那么如何实现呢?谷歌修改概要的方法是用非同步法,也即是说不同的F1服务器在同一时候可能储存两个本质相同但概要内容不同的数据库。对此,谷歌设计了自己的算法。

事务执行

F1有三种类型的事务:

1. 只读(read-only)事务

2. 直接映射到spanner的事务:此类型的事务直接由spanner处理。

3. 读写事务:为了防止在读取的时候数据被其他事务修改,F1还会给出上一次被修改的时间,数据一旦被更新,这个时间也会随之更新。

默认形式下,F1客户端使用读写事务模式。这样做的优点有

- 读取数据不需要数据锁,而且不会和改写数据相冲突,事务之间互不受影响。

- 某些事务本来就需要很长时间,这样也不会被禁止

- 事务在出错之后可以重新执行

- 客户端在发现远程服务器出现故障后,可以连接另一台服务器

- 事务执行过程中允许读取处理事务以外的数据

但是该模式也有缺点,就是如果某一数据被频繁调取,那么系统在这个数据上的工作效率(throughput)就很低。

数据锁

F1数据库中每一行数据都有一个锁列(lock column)。锁列可以由用户自由定制并且负责该行每一列数据的上锁。这样每一行的不同列就能被不同事务读取修改。

记录修改

F1需要记录过去对数据库的所有更改。F1记录每一条事务的修改记录时会包含每一行某一列修改前和修改后的值,还有primary key。这里的primary key包含根表格的key和提交事务时候的时间,所有这些记录放在了另外一个表格中。这些记录在F1相关应用中有重要作用。

客户端

在F1之前,很多谷歌的数据库应用都是用MySQL的ORM,ORM不适合在F1中使用,因为扩展性不高。于是谷歌设计了自己的API。同时F1也支持NoSQL和SQL。

事务查询处理

F1支持单点事务处理和分布式事务处理,单点OLTP由一个F1服务器处理,分布式OLAP由F1下的从属服务器(slaver)共同处理。

处理远程数据

在F1中,SQL中的join命令要求读取多个数据中心的数据,这会带来网络延时,解决办法是数据批量传送(batching)和流水线操作(pipelining)。

数据计算通常是一部分计算好之后就被输出,减少等待时间。这样做的好处是并行高效和减少存储缓冲,但缺点是数据不能被排序。

分布式计算

每一个事务执行计划包含了几十个子计划,每一个子计划由几个从属服务器执行,同时,数据划分(partitioning)技术也在此处用到。

这篇关于google f1 mysql_数据库NewSQL之谷歌F1系统的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/753602

相关文章

在Linux系统上连接GitHub的方法步骤(适用2025年)

《在Linux系统上连接GitHub的方法步骤(适用2025年)》在2025年,使用Linux系统连接GitHub的推荐方式是通过SSH(SecureShell)协议进行身份验证,这种方式不仅安全,还... 目录步骤一:检查并安装 Git步骤二:生成 SSH 密钥步骤三:将 SSH 公钥添加到 github

MySQL中EXISTS与IN用法使用与对比分析

《MySQL中EXISTS与IN用法使用与对比分析》在MySQL中,EXISTS和IN都用于子查询中根据另一个查询的结果来过滤主查询的记录,本文将基于工作原理、效率和应用场景进行全面对比... 目录一、基本用法详解1. IN 运算符2. EXISTS 运算符二、EXISTS 与 IN 的选择策略三、性能对比

MySQL常用字符串函数示例和场景介绍

《MySQL常用字符串函数示例和场景介绍》MySQL提供了丰富的字符串函数帮助我们高效地对字符串进行处理、转换和分析,本文我将全面且深入地介绍MySQL常用的字符串函数,并结合具体示例和场景,帮你熟练... 目录一、字符串函数概述1.1 字符串函数的作用1.2 字符串函数分类二、字符串长度与统计函数2.1

Oracle数据库定时备份脚本方式(Linux)

《Oracle数据库定时备份脚本方式(Linux)》文章介绍Oracle数据库自动备份方案,包含主机备份传输与备机解压导入流程,强调需提前全量删除原库数据避免报错,并需配置无密传输、定时任务及验证脚本... 目录说明主机脚本备机上自动导库脚本整个自动备份oracle数据库的过程(建议全程用root用户)总结

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

MySQL 内存使用率常用分析语句

《MySQL内存使用率常用分析语句》用户整理了MySQL内存占用过高的分析方法,涵盖操作系统层确认及数据库层bufferpool、内存模块差值、线程状态、performance_schema性能数据... 目录一、 OS层二、 DB层1. 全局情况2. 内存占js用详情最近连续遇到mysql内存占用过高导致

Mysql中设计数据表的过程解析

《Mysql中设计数据表的过程解析》数据库约束通过NOTNULL、UNIQUE、DEFAULT、主键和外键等规则保障数据完整性,自动校验数据,减少人工错误,提升数据一致性和业务逻辑严谨性,本文介绍My... 目录1.引言2.NOT NULL——制定某列不可以存储NULL值2.UNIQUE——保证某一列的每一

解密SQL查询语句执行的过程

《解密SQL查询语句执行的过程》文章讲解了SQL语句的执行流程,涵盖解析、优化、执行三个核心阶段,并介绍执行计划查看方法EXPLAIN,同时提出性能优化技巧如合理使用索引、避免SELECT*、JOIN... 目录1. SQL语句的基本结构2. SQL语句的执行过程3. SQL语句的执行计划4. 常见的性能优

SQL Server 中的 WITH (NOLOCK) 示例详解

《SQLServer中的WITH(NOLOCK)示例详解》SQLServer中的WITH(NOLOCK)是一种表提示,等同于READUNCOMMITTED隔离级别,允许查询在不获取共享锁的情... 目录SQL Server 中的 WITH (NOLOCK) 详解一、WITH (NOLOCK) 的本质二、工作

MySQL 强制使用特定索引的操作

《MySQL强制使用特定索引的操作》MySQL可通过FORCEINDEX、USEINDEX等语法强制查询使用特定索引,但优化器可能不采纳,需结合EXPLAIN分析执行计划,避免性能下降,注意版本差异... 目录1. 使用FORCE INDEX语法2. 使用USE INDEX语法3. 使用IGNORE IND