HBase数据库使用TTL清理过期数据

2023-10-19 03:08

本文主要是介绍HBase数据库使用TTL清理过期数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

老是看别人的blog,但是发现大多数的质量不高,都是些简单的粘贴复制,把blog当作是笔记本了,有些是转载别人的,很多都是重复的些内容。原创的少。当然我也很懒,也很少原创,这次想原创下,分享下。
18年1月17日公司的HBase数据库上线了,这个项目做了很拖拉,17年8月份就开始调研做设计,9月份开始弄,后面又慢慢地将应用接入HBase数据库。大数据对我来说是个新东西,要学新的知识,这个年纪都有点学不动了,不想学了,学的过程也很烦,没有学习的资料,学习的路径,自己下了官方的一本hbase pdf参考资料,记性差,看了前面忘了后面,只有不断地学不断地记才能学会。当然书不是白看的,数据库表分区的设计就很用,这也确保了后面上线十分数据库读写十分均衡和平稳。但是还是懂了皮毛,学了不深入。学东西太慢,做项目慢也符合我的做事,节奏快我也吃不消。什么ZK这些还是后来xx上PAAS平台有深一点的了解。
整个系统上线总的来说还是平稳的,一次是hdfs元数据fsimg和edits文件写到根盘的问题,是厂家安装的人装的是没考虑,做事不严谨。
系统运行到6月份,hdfs文件系统使用了160T了,占了总空间的46%了。清理表数据的事情也要开始了。做事不够有效率,还是自己给自己订计划,要在什么时候完成。网上查了些资料,也定了些方案,编写MR程序,自己java程序没写过,也这个力气搞。虽然上次大数据培训对MR有了一定的了解。还是TTL简单点。相对来说上手容易点。
开始着手TTL了,也是靠网友提供的资料,自己又认真看了点官方理论知识,这样结合了下感觉还不错,至少觉得可以一试了,现在测试环境上搞了下,还OK的,后来就在生产环境搞了。这次搞了下,感觉对hbase又有了进一步的了解,明白了compaction,hbase:meta,regions分区怎么删,Locality,region name的命名含义等等。
开始清理表里面的数据,放入TTL,删除90天前的数据。操作步骤如下:

describe ‘INDEX_XXXX’
disable ‘INDEX_XXXX’
alter ‘INDEX_XXXX’,{NAME=>‘logkey’,TTL=>‘7776000’}
enable ‘INDEX_XXXX’
describe ‘INDEX_XXXX’
major_compact ‘INDEX_XXXX’

清理了2张表,hdfs空间释放了2T,十分满意。后面准备搞大的表。

建议大家设计表的时候就放入TTL ,后面就没这个麻烦事了。

这篇关于HBase数据库使用TTL清理过期数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/236879

相关文章

Nginx中配置使用非默认80端口进行服务的完整指南

《Nginx中配置使用非默认80端口进行服务的完整指南》在实际生产环境中,我们经常需要将Nginx配置在其他端口上运行,本文将详细介绍如何在Nginx中配置使用非默认端口进行服务,希望对大家有所帮助... 目录一、为什么需要使用非默认端口二、配置Nginx使用非默认端口的基本方法2.1 修改listen指令

Python WebSockets 库从基础到实战使用举例

《PythonWebSockets库从基础到实战使用举例》WebSocket是一种全双工、持久化的网络通信协议,适用于需要低延迟的应用,如实时聊天、股票行情推送、在线协作、多人游戏等,本文给大家介... 目录1. 引言2. 为什么使用 WebSocket?3. 安装 WebSockets 库4. 使用 We

python中的显式声明类型参数使用方式

《python中的显式声明类型参数使用方式》文章探讨了Python3.10+版本中类型注解的使用,指出FastAPI官方示例强调显式声明参数类型,通过|操作符替代Union/Optional,可提升代... 目录背景python函数显式声明的类型汇总基本类型集合类型Optional and Union(py

Java使用正则提取字符串中的内容的详细步骤

《Java使用正则提取字符串中的内容的详细步骤》:本文主要介绍Java中使用正则表达式提取字符串内容的方法,通过Pattern和Matcher类实现,涵盖编译正则、查找匹配、分组捕获、数字与邮箱提... 目录1. 基础流程2. 关键方法说明3. 常见场景示例场景1:提取所有数字场景2:提取邮箱地址4. 高级

使用SpringBoot+InfluxDB实现高效数据存储与查询

《使用SpringBoot+InfluxDB实现高效数据存储与查询》InfluxDB是一个开源的时间序列数据库,特别适合处理带有时间戳的监控数据、指标数据等,下面详细介绍如何在SpringBoot项目... 目录1、项目介绍2、 InfluxDB 介绍3、Spring Boot 配置 InfluxDB4、I

使用Java读取本地文件并转换为MultipartFile对象的方法

《使用Java读取本地文件并转换为MultipartFile对象的方法》在许多JavaWeb应用中,我们经常会遇到将本地文件上传至服务器或其他系统的需求,在这种场景下,MultipartFile对象非... 目录1. 基本需求2. 自定义 MultipartFile 类3. 实现代码4. 代码解析5. 自定

使用Python实现无损放大图片功能

《使用Python实现无损放大图片功能》本文介绍了如何使用Python的Pillow库进行无损图片放大,区分了JPEG和PNG格式在放大过程中的特点,并给出了示例代码,JPEG格式可能受压缩影响,需先... 目录一、什么是无损放大?二、实现方法步骤1:读取图片步骤2:无损放大图片步骤3:保存图片三、示php

使用Python实现一个简易计算器的新手指南

《使用Python实现一个简易计算器的新手指南》计算器是编程入门的经典项目,它涵盖了变量、输入输出、条件判断等核心编程概念,通过这个小项目,可以快速掌握Python的基础语法,并为后续更复杂的项目打下... 目录准备工作基础概念解析分步实现计算器第一步:获取用户输入第二步:实现基本运算第三步:显示计算结果进

Go语言连接MySQL数据库执行基本的增删改查

《Go语言连接MySQL数据库执行基本的增删改查》在后端开发中,MySQL是最常用的关系型数据库之一,本文主要为大家详细介绍了如何使用Go连接MySQL数据库并执行基本的增删改查吧... 目录Go语言连接mysql数据库准备工作安装 MySQL 驱动代码实现运行结果注意事项Go语言执行基本的增删改查准备工作

python之uv使用详解

《python之uv使用详解》文章介绍uv在Ubuntu上用于Python项目管理,涵盖安装、初始化、依赖管理、运行调试及Docker应用,强调CI中使用--locked确保依赖一致性... 目录安装与更新standalonepip 安装创建php以及初始化项目依赖管理uv run直接在命令行运行pytho