数据库冷热隔离方案

2023-11-09 20:30
文章标签 数据库 方案 隔离 冷热

本文主要是介绍数据库冷热隔离方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据现装

目前项目中的数据存储在mysql数据库中,虽然mysql按照业务域分库(16个),单库256张表。但是表数据量目前300W,每日新增560w,平均每张物理表日新增数据量560W/256=2.18W。每张表数据量上限按照800W条计算,距离每张表的上限需要(800-300)/2.18=229天。

业务还在持续增长,提前对DB做冷热隔离。

前期技术选型

压缩选型

压缩比

性能

CPU消耗

archive

1/10-1/15

一般,只支持insert和select,不支持update

未知

tokudb

大约25%

较差

innodb

25%-50%

3倍tokudb

高,5倍于x-engine

X-Engine

10%-50%

和innodb相似(LSM-tree)

后期技术调研

直接将数据存储在Hbase或者ES等基于HDFS分布式存储架构中,当数据量持续增长时,如果遇到存储瓶颈直接加机器即可。目前主流的大数据量也按照此方案存储。例如阿里的lindorm(Hbase上做的封装),腾讯的基于ES的一个技术栈(具体叫啥名记不清了)。

隔离方案

91dc768c1c8cad306d1c75fe3edc4532.png

全量数据同步方案

mysql每天会同步数据至数据仓库hive中(odps),考虑到有业务持续写入,减少db的压力,采用离线同步方案,将hive(odps)中的数据采用快照方式同步到Hbase中(lindorm)。

增量数据同步方案

方案1.采用消费mysql binlog的方式去同步数据至冷库(Hbase)中。

方案2.a.先采用方案1执行。b.当mysql业务数据写成功之后发一条mq消息。c.创建消费者消费此主题消息,写冷库(Hbase)。d.停止a这一步。

如果采用方案1同步增量数据,为了保证数据的安全性和一致性,可以在全量任务开始前就启动增量任务,但是增量任务此时不消费binlog同步数据,将消费binlog的位点前置(早于全量任务开始,或者和全量任务开始时间一致).当全量任务跑完的时间点增量任务开始消费binlog。

如果采用方案2同步增量数据,此方案可能会有重复数据出现,但是Hbase中修改操作也是新增一条数据,每条数据对应一个时间戳做多版本,当查询数据时,会按照时间戳取最新的那条数据。为了节省预算资源和保证数据的安全性,必须采用方案1先执行,然后消费mq,再停止方案1。

注意:为保证全量任务迁移安全,全量任务执行期间,不要往热库写数据。

当数据迁移完成后删除热库(mysql)中100天之后的数据,这样就保证了mysql的空间资源,同时需要对mysql做optimize。

需要分库分表的扫描,然后按照主键id删除数据。

接口改造

逻辑层再加一层路由层,判断数据的创建时间,如果大于90天就请求冷DB,如果小于90天就请求热DB。

测试及其灰度配置

此外 可以在diamond(阿里)或者Apollo(携程)或者wconfig(58)等可配置化平台配置白名单,采用变动推送新配置方式,项目实时读取新配置。通过白名单做测试用。同时在diamond上采用分桶方式在上线之后做灰度百分比,如果一旦发现问题将请求冷DB流量切换至0%,及时回滚。

下面这个是我在diamond上的配置:

{
    "experiment": "AHIM_DB_B2C",
    "totalBucket": 1000,
    "divideType": "cid",
    "config": {
        "buckets": [{
            "startBucket": 0,
            "endBucket": -1,
            "whiteList": ["111","222","333"],
            "bucketType": 1
        }],
        "defaultBuckets": 0
    }
}

可以在代码中加开关控制,有问题随时关闭开关,停止走冷库逻辑

这篇关于数据库冷热隔离方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/xcldzh/article/details/123442232
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/378298

相关文章

Druid连接池实现自定义数据库密码加解密功能

《Druid连接池实现自定义数据库密码加解密功能》在现代应用开发中,数据安全是至关重要的,本文将介绍如何在​​Druid​​连接池中实现自定义的数据库密码加解密功能,有需要的小伙伴可以参考一下... 目录1. 环境准备2. 密码加密算法的选择3. 自定义 ​​DruidDataSource​​ 的密码解密3

Maven项目中集成数据库文档生成工具的操作步骤

《Maven项目中集成数据库文档生成工具的操作步骤》在Maven项目中,可以通过集成数据库文档生成工具来自动生成数据库文档,本文为大家整理了使用screw-maven-plugin(推荐)的完... 目录1. 添加插件配置到 pom.XML2. 配置数据库信息3. 执行生成命令4. 高级配置选项5. 注意事

Java实现本地缓存的常用方案介绍

《Java实现本地缓存的常用方案介绍》本地缓存的代表技术主要有HashMap,GuavaCache,Caffeine和Encahche,这篇文章主要来和大家聊聊java利用这些技术分别实现本地缓存的方... 目录本地缓存实现方式HashMapConcurrentHashMapGuava CacheCaffe

在Java中基于Geotools对PostGIS数据库的空间查询实践教程

《在Java中基于Geotools对PostGIS数据库的空间查询实践教程》本文将深入探讨这一实践,从连接配置到复杂空间查询操作,包括点查询、区域范围查询以及空间关系判断等,全方位展示如何在Java环... 目录前言一、相关技术背景介绍1、评价对象AOI2、数据处理流程二、对AOI空间范围查询实践1、空间查

Python+PyQt5实现MySQL数据库备份神器

《Python+PyQt5实现MySQL数据库备份神器》在数据库管理工作中,定期备份是确保数据安全的重要措施,本文将介绍如何使用Python+PyQt5开发一个高颜值,多功能的MySQL数据库备份工具... 目录概述功能特性核心功能矩阵特色功能界面展示主界面设计动态效果演示使用教程环境准备操作流程代码深度解

MySQL数据库实现批量表分区完整示例

《MySQL数据库实现批量表分区完整示例》通俗地讲表分区是将一大表,根据条件分割成若干个小表,:本文主要介绍MySQL数据库实现批量表分区的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考... 目录一、表分区条件二、常规表和分区表的区别三、表分区的创建四、将既有表转换分区表脚本五、批量转换表为分区

无法启动此程序因为计算机丢失api-ms-win-core-path-l1-1-0.dll修复方案

《无法启动此程序因为计算机丢失api-ms-win-core-path-l1-1-0.dll修复方案》:本文主要介绍了无法启动此程序,详细内容请阅读本文,希望能对你有所帮助... 在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是"api-ms-win-core-path-l1-1-0.dll丢失

MySQL中的事务隔离级别详解

《MySQL中的事务隔离级别详解》在MySQL中,事务(Transaction)是一个执行单元,它要么完全执行,要么完全回滚,以保证数据的完整性和一致性,下面给大家介绍MySQL中的事务隔离级别详解,... 目录一、事务并发问题二、mysql 事务隔离级别1. READ UNCOMMITTED(读未提交)2

MySQL Workbench工具导出导入数据库方式

《MySQLWorkbench工具导出导入数据库方式》:本文主要介绍MySQLWorkbench工具导出导入数据库方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录mysql Workbench工具导出导入数据库第一步 www.chinasem.cn数据库导出第二步

利用Python实现可回滚方案的示例代码

《利用Python实现可回滚方案的示例代码》很多项目翻车不是因为不会做,而是走错了方向却没法回头,技术选型失败的风险我们都清楚,但真正能提前规划“回滚方案”的人不多,本文从实际项目出发,教你如何用Py... 目录描述题解答案(核心思路)题解代码分析第一步:抽象缓存接口第二步:实现两个版本第三步:根据 Fea