Hbase - regionserver存储过程(写过程)

2024-01-29 21:58

本文主要是介绍Hbase - regionserver存储过程(写过程),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

架构图

 

写入流程

 

Hadoop 生态圈 

来源 Google 的三篇论文: 谷歌有三宝 计算(MapReduce) 存储(GFS)和 大表(BIgtable) 

BigTable ---> HBase   Hadoop DataBase

传统的关系型数据库 : Mysql  Oracle   操作方式 : sql操作 
什么叫做关系型数据库 : 基于关系模型提出来数据库,数据最终保存在一张二维表里面

HBase 是一个Nosql  not only sql 

    简单对比 吞吐量
    Mysql             HBase 
    1000 +             100W+ 

    关系型数据库 :           擅长的地方         增删改查  事务
    非关系型数据库HBase  : 擅长的地方         存储 和 读取     订单信息  历史数据 

HBase基本架构模型 
    画 HBase 架构图方式
    1. HBase 表结构     
        学校学生和成绩统计  
            Mysql 表 设计两张表  一张学生表 (年龄 ,姓名 ,性别....)     一张成绩表(语文,数学,英语,化学,物理..)
            Hbase 只有一张表 , 以列族划分  数十亿行 数百万列 
    2. HBase 部署在庞大廉价的机器集群上面 阿里巴巴 12000


HBase工作机制
    1.切分和分配大表
    ** 将一张大表切分,切分成一个个小单元(Region),分配到服务器集群上面,分别由每一台机器(RegionServer)托管一部分数据.一般情况下,RegionServer托管多个Region
    2. 理论上可以把RegionServer当做HDFS 客户端 来对DataNode操作
    3. 稀疏
    4. 允许相同的行键存在

HBase的原理分析
    1. HBase 写数据流程
         * 请求Region所在的服务器 
         * 将数据写入 Hlog
         * 将数据写入到 MemStore 
         * 经过累积Flush到Store ---> StoreFile ---> HFile
         MemStore 什么时候刷盘

    2. 寻找Region  HBase meta 
        1. 找Zk 问 : Meta 表在哪 答 : 在 RS2
        2. RS2  问 : 读取 XXX表里面的38行数据 在那个Region上面能找到,哪个RS为他提供服务 答 : RS1上面的Region3
        3. 我要读取XXX表里面的38行数据 答案 : 好的那去吧 

操作HBase 
    WebConsole  : 端口号 16010
    JavaAPI  : 编写Java代码方式
    命令行方式 :     
        启动HBase : start-hbase.sh
        登入 : hbase shell
        查看当前数据库的表 : list
        创建表 : create '表名','列族名'
        插入数据 : put '表名','行键','列族名:子项名称','值'
        查看表描述 : desc '表名'
        查看表数据 : scan '表名'  get '表名','行键'
        清空表 : truncate '表名'  禁用表disable table  删除表drop table 创建表 create table 
        删除表 : disable '表名' drop '表名' 删除表的时候不会立刻马上删除,先打上"墓碑",不能对表有任何操作
        等到执行一次大合并的时候会进行删除.

这篇关于Hbase - regionserver存储过程(写过程)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/658289

相关文章

Django HTTPResponse响应体中返回openpyxl生成的文件过程

《DjangoHTTPResponse响应体中返回openpyxl生成的文件过程》Django返回文件流时需通过Content-Disposition头指定编码后的文件名,使用openpyxl的sa... 目录Django返回文件流时使用指定文件名Django HTTPResponse响应体中返回openp

Linux线程同步/互斥过程详解

《Linux线程同步/互斥过程详解》文章讲解多线程并发访问导致竞态条件,需通过互斥锁、原子操作和条件变量实现线程安全与同步,分析死锁条件及避免方法,并介绍RAII封装技术提升资源管理效率... 目录01. 资源共享问题1.1 多线程并发访问1.2 临界区与临界资源1.3 锁的引入02. 多线程案例2.1 为

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Win10安装Maven与环境变量配置过程

《Win10安装Maven与环境变量配置过程》本文介绍Maven的安装与配置方法,涵盖下载、环境变量设置、本地仓库及镜像配置,指导如何在IDEA中正确配置Maven,适用于Java及其他语言项目的构建... 目录Maven 是什么?一、下载二、安装三、配置环境四、验证测试五、配置本地仓库六、配置国内镜像地址

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

python运用requests模拟浏览器发送请求过程

《python运用requests模拟浏览器发送请求过程》模拟浏览器请求可选用requests处理静态内容,selenium应对动态页面,playwright支持高级自动化,设置代理和超时参数,根据需... 目录使用requests库模拟浏览器请求使用selenium自动化浏览器操作使用playwright

Mysql中设计数据表的过程解析

《Mysql中设计数据表的过程解析》数据库约束通过NOTNULL、UNIQUE、DEFAULT、主键和外键等规则保障数据完整性,自动校验数据,减少人工错误,提升数据一致性和业务逻辑严谨性,本文介绍My... 目录1.引言2.NOT NULL——制定某列不可以存储NULL值2.UNIQUE——保证某一列的每一

解密SQL查询语句执行的过程

《解密SQL查询语句执行的过程》文章讲解了SQL语句的执行流程,涵盖解析、优化、执行三个核心阶段,并介绍执行计划查看方法EXPLAIN,同时提出性能优化技巧如合理使用索引、避免SELECT*、JOIN... 目录1. SQL语句的基本结构2. SQL语句的执行过程3. SQL语句的执行计划4. 常见的性能优