HBase数据库使用TTL清理过期数据

2023-10-19 03:08

本文主要是介绍HBase数据库使用TTL清理过期数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

老是看别人的blog,但是发现大多数的质量不高,都是些简单的粘贴复制,把blog当作是笔记本了,有些是转载别人的,很多都是重复的些内容。原创的少。当然我也很懒,也很少原创,这次想原创下,分享下。
18年1月17日公司的HBase数据库上线了,这个项目做了很拖拉,17年8月份就开始调研做设计,9月份开始弄,后面又慢慢地将应用接入HBase数据库。大数据对我来说是个新东西,要学新的知识,这个年纪都有点学不动了,不想学了,学的过程也很烦,没有学习的资料,学习的路径,自己下了官方的一本hbase pdf参考资料,记性差,看了前面忘了后面,只有不断地学不断地记才能学会。当然书不是白看的,数据库表分区的设计就很用,这也确保了后面上线十分数据库读写十分均衡和平稳。但是还是懂了皮毛,学了不深入。学东西太慢,做项目慢也符合我的做事,节奏快我也吃不消。什么ZK这些还是后来xx上PAAS平台有深一点的了解。
整个系统上线总的来说还是平稳的,一次是hdfs元数据fsimg和edits文件写到根盘的问题,是厂家安装的人装的是没考虑,做事不严谨。
系统运行到6月份,hdfs文件系统使用了160T了,占了总空间的46%了。清理表数据的事情也要开始了。做事不够有效率,还是自己给自己订计划,要在什么时候完成。网上查了些资料,也定了些方案,编写MR程序,自己java程序没写过,也这个力气搞。虽然上次大数据培训对MR有了一定的了解。还是TTL简单点。相对来说上手容易点。
开始着手TTL了,也是靠网友提供的资料,自己又认真看了点官方理论知识,这样结合了下感觉还不错,至少觉得可以一试了,现在测试环境上搞了下,还OK的,后来就在生产环境搞了。这次搞了下,感觉对hbase又有了进一步的了解,明白了compaction,hbase:meta,regions分区怎么删,Locality,region name的命名含义等等。
开始清理表里面的数据,放入TTL,删除90天前的数据。操作步骤如下:

describe ‘INDEX_XXXX’
disable ‘INDEX_XXXX’
alter ‘INDEX_XXXX’,{NAME=>‘logkey’,TTL=>‘7776000’}
enable ‘INDEX_XXXX’
describe ‘INDEX_XXXX’
major_compact ‘INDEX_XXXX’

清理了2张表,hdfs空间释放了2T,十分满意。后面准备搞大的表。

建议大家设计表的时候就放入TTL ,后面就没这个麻烦事了。

这篇关于HBase数据库使用TTL清理过期数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/236879

相关文章

使用animation.css库快速实现CSS3旋转动画效果

《使用animation.css库快速实现CSS3旋转动画效果》随着Web技术的不断发展,动画效果已经成为了网页设计中不可或缺的一部分,本文将深入探讨animation.css的工作原理,如何使用以及... 目录1. css3动画技术简介2. animation.css库介绍2.1 animation.cs

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Python文件操作与IO流的使用方式

《Python文件操作与IO流的使用方式》:本文主要介绍Python文件操作与IO流的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python文件操作基础1. 打开文件2. 关闭文件二、文件读写操作1.www.chinasem.cn 读取文件2. 写

PyQt6中QMainWindow组件的使用详解

《PyQt6中QMainWindow组件的使用详解》QMainWindow是PyQt6中用于构建桌面应用程序的基础组件,本文主要介绍了PyQt6中QMainWindow组件的使用,具有一定的参考价值,... 目录1. QMainWindow 组php件概述2. 使用 QMainWindow3. QMainW

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到

java变量内存中存储的使用方式

《java变量内存中存储的使用方式》:本文主要介绍java变量内存中存储的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍2、变量的定义3、 变量的类型4、 变量的作用域5、 内存中的存储方式总结1、介绍在 Java 中,变量是用于存储程序中数据

关于Mybatis和JDBC的使用及区别

《关于Mybatis和JDBC的使用及区别》:本文主要介绍关于Mybatis和JDBC的使用及区别,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、JDBC1.1、流程1.2、优缺点2、MyBATis2.1、执行流程2.2、使用2.3、实现方式1、XML配置文件

macOS Sequoia 15.5 发布: 改进邮件和屏幕使用时间功能

《macOSSequoia15.5发布:改进邮件和屏幕使用时间功能》经过常规Beta测试后,新的macOSSequoia15.5现已公开发布,但重要的新功能将被保留到WWDC和... MACOS Sequoia 15.5 正式发布!本次更新为 Mac 用户带来了一系列功能强化、错误修复和安全性提升,进一步增

Java资源管理和引用体系的使用详解

《Java资源管理和引用体系的使用详解》:本文主要介绍Java资源管理和引用体系的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Java的引用体系1、强引用 (Strong Reference)2、软引用 (Soft Reference)3、弱引用 (W

ubuntu系统使用官方操作命令升级Dify指南

《ubuntu系统使用官方操作命令升级Dify指南》Dify支持自动化执行、日志记录和结果管理,适用于数据处理、模型训练和部署等场景,今天我们就来看看ubuntu系统中使用官方操作命令升级Dify的方... Dify 是一个基于 docker 的工作流管理工具,旨在简化机器学习和数据科学领域的多步骤工作流。