【SDCC讲师专访】饿了么DBA经理虢国飞:饿了么数据库架构变迁

2024-02-21 05:32

本文主要是介绍【SDCC讲师专访】饿了么DBA经理虢国飞:饿了么数据库架构变迁,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2016年3月18日-19日,由CSDN重磅打造的数据库核心技术与实战应用峰会、互联网应用架构实战峰会将在上海举行。届时,CSDN将采访一些与会讲师,谈谈他们将在会上分享的内容。


本期我们采访的讲师是虢国飞先生,现任饿了么DBA经理,混迹数据库行业多年,先后在5173、新蛋网、沪江网等担任DBA和DBA Leader职务,关注于数据库管理自动化建设、MySQL、PostgreSQL、MSSQL、NoSQL等领域的技术研究 。他将在数据库核心技术与实战应用峰会中带来《饿了么数据库架构变迁》的干货分享。下面则是CSDN小编对虢国飞先生的会前专访,以下为专访具体内容:

图片描述

饿了么DBA经理 虢国飞

CSDN:首先请您简单介绍下自己、公司以及目前所负责的领域。

虢国飞:大家好,我叫虢(guo)国飞,网名“飞扬过海”,一直从事数据库领域的工作,熟悉的数据库产品有MySQL、MSSQL、PostgreSQL和部分NoSQL,先后在5173、新蛋网、沪江网从事过DBA方面的工作,现在“饿了么”公司担任DBA经理职务,主要负责饿了么数据库的维护和数据库团队的管理工作。

CSDN:您在数据库行业多年,掌握着丰富的数据库开发和设计经验,那么您是如何保持对这份技术热情的呢?

虢国飞:个人认为,能够在一个领域里面保持持续的热情,主要取决于兴趣、成就感和好奇心,只有热爱这个行业、这份工作,才会不断的想去学习、研究和思考,如果再能在此基础上做出一些有意思的事情,取得一些成绩,然后结交一些朋友,相信这份成就感会继续支持你在这个行业里面走下去;还有需要保持一颗好奇心,乐于接受新的事物和技术,能打破自己已有的知识体系,融入新的思想,再从新组织起来,形成新的体系,这样才能不断丰富、提升自己。

CSDN:您能和我们分享下饿了么订单从每天几十万单到如今的几百万订单过程中,在数据库架构方面是如何调整变化的,以及每个阶段面临了哪些问题,又是如何应对的呢?

虢国飞:我最初到饿了么的时候,那时候每天几十万的单量,但是因为饿了么之前一直没有专门的DBA,使得数据库面临的问题很多,包括磁盘空间不足、主从延时、连接数不够、无规范、无规则、大量慢SQL等问题一应俱全;我过去后做了三件事情:1. 先解决一些救火方面的问题,比方磁盘空间、延时、连接数等,2. 推动数据库设计、开发的规则、规范和数据库部署安装的规范,3. 收集了数据库运行数据、加上了监控报警;三项措施其实瞄准了三个方向:稳定现在、收紧入口、把控数据;尤其是把控数据方面,为我们后面的架构调整和DB优化提供了数据、指明了方向。

数据库架构调整大概经历了四个阶段:硬件和DB升级、垂直拆分、sharding、异地容灾。

  1. 硬件和DB升级:
    这个是最开始为解决磁盘空间、延时、SlowSQL等问题采取的一些救火措施,我们上了SSD盘、升级MySQL5.5到5.6、增加slave将不同业务划分到单独的slave上面 (做隔离,单个业务Slow SQL不影响全局 )、同时还进行了机房的搬迁,这其中遇到MySQL升级到5.6 业务代码不兼容的问题(主要是时间和null值不兼容,前期测试也做得不完善),导致真正实施的时候排查了比较久。

  2. 垂直拆分:
    随着我们订单量的不断上涨,主库的压力增加明显,我们通过之前收集的运行数据,再对比我们压测数据,发现原有的架构下,订单上升到200万单左右,核心数据库TPS就支持不了啦,同时Slave延时的问题还会继续出现,连接数也不够,于是我们将核心的主库按业务和TPS的比例拆分成了五套集群,其他相关的业务库也按照我们的运行数据和压测效果一一拆分,最终平稳支持了300多万单的冲击;这个阶段其实主要的问题在于,如何有节奏的推动开发人员配合我们来做DB的拆分,那在拆分之前我们会通过我们的数据来告知到老板和开发负责人我们DB会面临哪些问题?瓶颈在哪里?不调整的话最多能支撑的订单量是多少?我们会拿运行数据、压测数据以及我们拆分后的预期数据来展示给他们,有了数据的支撑和专业的对比分析,老板也会帮我们推动拆分的事;其实还没完,等拆分完成后我们会拿实际运行的数据和之前预期的数据做对比,做成分析报告发给老板和相关的开发人员,让大家感觉到咱们做的事情是有效果、有价值的。

  3. sharding:
    这个阶段,系统要求是10x容量设计,这个阶段对DBA来讲,其实比较痛苦,首先是方案的确定会比较麻烦,最重要的是依赖的因素太多了,很多事情DBA并不能把控,需要很多资源的投入;因为业务比较复杂,光讨论sharding的切片方案就耗时1个多月,还有sharding的方案选型、实施方案、灰度方案、回滚方案以及业务代码的改造等;最终我们将核心的DB拆分为两个维度(用户和商家维度),分了120个片(可以支持1024片),从一套集群变成了12套集群,引入了DAL层(对业务透明),改造后经过压测分析,可以支持到3000w订单/天的量;当然这种调整也带来了新的问题,如sharding之后数据一致性(两个分片)、DAL本身的容灾机制、DB维护量增加等;我们后面开发了数据差异对比和自动数据订正工具来保障数据的一致性,同时也在DAL这一层做了冗余的灾备机制,DB维护我们也通过工具来简化DBA的操作。

  4. 异地容灾:
    这个是我们正在进行的阶段,异地灾备投入比较大,而且风险也比较高,目前因为我们并没有在MySQL源码上面做一些工作,有没有开发drc类似的工具(当然这个是我们努力的方向),所以方案的研究和测试都是在考虑MySQL缺陷下进行的,比如一开始我们就是基于切换的时候两边的数据有差异的前提下来讨论方案的(当然数据是不能丢的,我们需要知道哪些数据出现了问题),因为数据的延时,带来比较严重的问题是数据的冲突和业务数据状态的一致性,对这些数据的丢失或者不一致问题,我们是通过业务方和DBA分别跑脚本来应对的,即业务会负责业务数据状态不一致的修复,DBA会负责修复数据的冲突(比方切换前自增列我们会统一将自增因子调大或者一开始两边就是奇偶递增,避免新写入的数据和老的数据冲突),等机房恢复后,我们再来通过脚本比对差异的数据,跟进业务方案来修复,目前方案还在测试验证当中。

CSDN:在您看来,您觉得数据库技术接下来会面临着哪些挑战?它的发展趋势又如何?

虢国飞:现在互联网对数据库的使用方式发生了很多变化,数据库不再像过去那样笨重,变成很轻的东西了,因为大家对数据库的吞吐量有更高的要求;而且现在硬件性能提升很快,数据库以前的瓶颈以前说是在磁盘IO上,后面可能转变到数据库代码能否将这些强悍的硬件性能使用好的情况。

个人感觉,数据库技术会往三个方向发展,第一是提高数据库本身的吞吐量,在保证数据的一致性的前提下,如何减少锁或者提高锁效率、提高并发度、细化管理方式和提示信息等方面,像MySQL这类开源数据库,还是有很多地方可以继续完善;第二是分布式数据库技术发展,目前大部分公司在做分布式数据库时都会依赖中间件,没有能力做中间件的公司,要做数据库的sharding会比较痛苦,开发人员需要改造很多代码,而且升级、维护都会比较麻烦,不过中间件的引入会带来新的问题,拖慢了效率,增加一个新的风险点,增加了沟通成本,出问题时排查的路线也会更长;如果能让数据库本身实现中间件的机制,那对DBA来讲会是很给力的支持,DBA完全能够自己把控,现在有一些公司在做这个研究;第三是云数据库,CDB目前发展也比较迅速,高配的CDB 越来越多,有丰富的工具支持,中小型的业务完全可以使用CDB,如果不关注状态的业务也可以在多个CDB之间做灾备(比方发送短信的业务),不过数据量大、并发高、要求高的业务,还是推荐自己来维护。

CSDN:您在饿了么期间,有没有很有意思的事情发生,让您至今记忆犹新呢?

虢国飞:我觉得DBA最印象深刻的是故障,尤其是大的故障,我记得在饿了么经历了一个比较大的事故是int字段溢出的问题,碰巧的是我们业务代码之前就有对这个表的插入失败情况,于是抛出的错都被业务丢弃了,当时正是业务高峰期,订单状态都不轮转了,我们的各项监控指标都在安全水位,而且没有错误日志,大家都找到问题;后来还是一位熟悉业务的架构师发现这个现象后,再对表进行测试才找到原因;这个事情让我感受最深的是做DBA很多事情不能停留在表面,我们对各种性能指标都有监控,但是这个还是不够的,还必须深入到业务,才能真正在问题出现时及时定位;现在我们的监控会加入对业务对数据的监控,这需要深入了解业务的特点,这样我们才能制定有效的监控指标,有的放矢,自证清白(即便故障时没有业务代码的错误信息,我们也能知道DB到底有没有问题)。

CSDN:以您对数据库技术的多年研究,如何才能更好的掌握数据库这门技术呢?

虢国飞:个人认为有几点:感兴趣、爱学习、多动手、勤思考、善总结,先深入学习某一款数据库,再扩展到其他,搭建T型知识体系,最终能形成一套自己的维护管理DB的方式方法。

CSDN:在本次SDCC数据库峰会上分享的话题是?

虢国飞:“饿了么数据库架构变迁”,希望和大家分享下我们在业务快速增长下是怎么来调整数据库架构的,同时和大家探讨下各种架构的优劣。

CSDN:您最期待在本次SDCC数据库峰会上听到哪些内容?

虢国飞:数据库架构和技术发展上面其他同仁的一些新的想法和实践,还有遇到过的问题。


SDCC的精彩正在继续,2016年3月18日-19日,数据库核心技术与实战应用峰会、互联网应用架构实战峰会将在上海召开,我们静候您的到来。大会官网(含购票)

这篇关于【SDCC讲师专访】饿了么DBA经理虢国飞:饿了么数据库架构变迁的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/730713

相关文章

Oracle数据库定时备份脚本方式(Linux)

《Oracle数据库定时备份脚本方式(Linux)》文章介绍Oracle数据库自动备份方案,包含主机备份传输与备机解压导入流程,强调需提前全量删除原库数据避免报错,并需配置无密传输、定时任务及验证脚本... 目录说明主机脚本备机上自动导库脚本整个自动备份oracle数据库的过程(建议全程用root用户)总结

虚拟机Centos7安装MySQL数据库实践

《虚拟机Centos7安装MySQL数据库实践》用户分享在虚拟机安装MySQL的全过程及常见问题解决方案,包括处理GPG密钥、修改密码策略、配置远程访问权限及防火墙设置,最终通过关闭防火墙和停止Net... 目录安装mysql数据库下载wget命令下载MySQL安装包安装MySQL安装MySQL服务安装完成

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

SQL server数据库如何下载和安装

《SQLserver数据库如何下载和安装》本文指导如何下载安装SQLServer2022评估版及SSMS工具,涵盖安装配置、连接字符串设置、C#连接数据库方法和安全注意事项,如混合验证、参数化查... 目录第一步:打开官网下载对应文件第二步:程序安装配置第三部:安装工具SQL Server Manageme

C#连接SQL server数据库命令的基本步骤

《C#连接SQLserver数据库命令的基本步骤》文章讲解了连接SQLServer数据库的步骤,包括引入命名空间、构建连接字符串、使用SqlConnection和SqlCommand执行SQL操作,... 目录建议配合使用:如何下载和安装SQL server数据库-CSDN博客1. 引入必要的命名空间2.

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

Knife4j+Axios+Redis前后端分离架构下的 API 管理与会话方案(最新推荐)

《Knife4j+Axios+Redis前后端分离架构下的API管理与会话方案(最新推荐)》本文主要介绍了Swagger与Knife4j的配置要点、前后端对接方法以及分布式Session实现原理,... 目录一、Swagger 与 Knife4j 的深度理解及配置要点Knife4j 配置关键要点1.Spri

MySQL数据库中ENUM的用法是什么详解

《MySQL数据库中ENUM的用法是什么详解》ENUM是一个字符串对象,用于指定一组预定义的值,并可在创建表时使用,下面:本文主要介绍MySQL数据库中ENUM的用法是什么的相关资料,文中通过代码... 目录mysql 中 ENUM 的用法一、ENUM 的定义与语法二、ENUM 的特点三、ENUM 的用法1

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁