最近一些工作的总结(关于HBase Coprocessor,多版本多条件检索多Rowkey检索)

2024-04-20 06:18

本文主要是介绍最近一些工作的总结(关于HBase Coprocessor,多版本多条件检索多Rowkey检索),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先是HBase协处理器的一些理解上的问题。
之前写的博文HBase Coprocessor是按照别人的代码做的一个测试小实验,虽然成功了,但是没有完全理解,所以当自己真的要用协处理器的时候重新理解了一下。
其实,协处理器实现二级索引的本质是自动维护两张表格。比如我需要的主表如下
HBase主表
需要对列族 Coid的 LatLonCode变量做一个二级索引,其实就是维护另一张表,我把它称为协处理表,这个表的Rowkey就是这个LatLonCode的值,而表中列族就是主表的Rowkey。所以设计协处理表如下
协处理表
所以检索的时候,如果要通过LatLonCode的值得到对应的属性数据,先检索协处理表,得到这个值对应的主表Rowkey值,也就是ID,再根据这个Rowkey到主表中去检索对应的数据。
所以,上述过程的协处理器JAVA代码应该是这样的。

public class IDCoprocessor extends BaseRegionObserver {//Coprocessor table nameprivate static final byte[] TABLE_NAME=Bytes.toBytesBinary("DataCoid");// Main table familyprivate static final byte[] COLUMN_FAMILY1=Bytes.toBytes("Coid");// Main table column that is to be coprocessedprivate static final byte[] COLUMN1=Bytes.toBytes("LatLonCode");// Coprocessor table family and column// value of LatLineCode is equal to Rowkey in the main tableprivate static final byte[] COLUMN_FAMILY2=Bytes.toBytes("ID");private static final byte[] COLUMN2=Bytes.toBytes("LatLineCode");private Configuration configuration=HBaseConfiguration.create();public void prePut(ObserverContext<RegionCoprocessorEnvironment>e, Put put, WALEdit edit,Durability durability) {// get the values from the main tableList<Cell> kv=put.get(COLUMN_FAMILY1, COLUMN1);Iterator<Cell> kvIterator=kv.iterator();try {HTable Coid=new HTable(configuration,TABLE_NAME);while(kvIterator.hasNext()) {Cell tmp=kvIterator.next();final byte[] value=CellUtil.cloneValue(tmp);// value as the rowkey to put to the coprocessor tablePut indexPut=new Put(value);indexPut.addColumn(COLUMN_FAMILY2, COLUMN2, CellUtil.cloneRow(tmp));Coid.put(indexPut);}Coid.close();} catch (IOException e1) {// TODO Auto-generated catch blocke1.printStackTrace();}}}

接下来是多版本检索的问题。
HBase的Rowkey是唯一的,不然在put的时候,不同版本的数据其实是会覆盖的。但是把LatLonCode这个Column的值作为协处理表的Rowkey,这个值极有可能不是唯一的。也就是说在主表中,不同Rowkey下对应的LatLonCode值相同。这个时候,在协处理表中就要处理多版本数据的存储和检索问题。
一开始以为只需要在检索的时候加上setMaxVersion()就可以了,其实在HBase创建表的时候就需要设置表格存储多版本数据。
在HBase shell里设置协处理表的属性

hbase > alter 'Datacoid',{NAME=>'ID',VERSIONS=>100}

把协处理表Datacoid的ID列族修改为可以存储100个版本的数据。然后在检索的时候直接setMaxVersion()了

关于多条件的检索。
JAVA操作HBaseIO时获取数据有两种方式,get是根据rowkey获得某一行的数据,而scan可以设置查询条件,从而获得符合条件的所有数据,比如rowkey大于某个值小于某个值,或者针对rowkey的正则表达式检索等。
用scan进行查询通过设置过滤器filter来设置查询条件,如果有多个查询条件,通过FilterList实现。
具体参考FilterList

另外,get是一次get一条数据,如果rowkey有很多,比如我需要get 20多万条数据,这个时候一条创建一个get是非常耗时的,可以用 List<Get>方法,对每一个Rowkey创建一个Get,然后把Get放到一个List里,直接获取。

public void Run(float latstart,float latend,float lonstart,float lonend) {EncodeNOIGRF Eno=new EncodeNOIGRF(latstart,latend,lonstart,lonend);Object[] codes=Eno.getCodes();ArrayList<String> codes2check=(ArrayList<String>) codes[1];Iterator<String> iterator=codes2check.iterator();List<Get> get2check=new ArrayList<Get>();while(iterator.hasNext()) {// every rowkey a new Get, and add it to List<Get> get2checkGet get=new Get(Bytes.toBytes(iterator.next()));get2check.add(get);}Result[] results2check;try {results2check = this.table.get(get2check);} catch (IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}}

这篇关于最近一些工作的总结(关于HBase Coprocessor,多版本多条件检索多Rowkey检索)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/919490

相关文章

LiteFlow轻量级工作流引擎使用示例详解

《LiteFlow轻量级工作流引擎使用示例详解》:本文主要介绍LiteFlow是一个灵活、简洁且轻量的工作流引擎,适合用于中小型项目和微服务架构中的流程编排,本文给大家介绍LiteFlow轻量级工... 目录1. LiteFlow 主要特点2. 工作流定义方式3. LiteFlow 流程示例4. LiteF

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

SQL中JOIN操作的条件使用总结与实践

《SQL中JOIN操作的条件使用总结与实践》在SQL查询中,JOIN操作是多表关联的核心工具,本文将从原理,场景和最佳实践三个方面总结JOIN条件的使用规则,希望可以帮助开发者精准控制查询逻辑... 目录一、ON与WHERE的本质区别二、场景化条件使用规则三、最佳实践建议1.优先使用ON条件2.WHERE用

SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程

《SpringBoot集成LiteFlow实现轻量级工作流引擎的详细过程》LiteFlow是一款专注于逻辑驱动流程编排的轻量级框架,它以组件化方式快速构建和执行业务流程,有效解耦复杂业务逻辑,下面给大... 目录一、基础概念1.1 组件(Component)1.2 规则(Rule)1.3 上下文(Conte

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Nginx Location映射规则总结归纳与最佳实践

《NginxLocation映射规则总结归纳与最佳实践》Nginx的location指令是配置请求路由的核心机制,其匹配规则直接影响请求的处理流程,下面给大家介绍NginxLocation映射规则... 目录一、Location匹配规则与优先级1. 匹配模式2. 优先级顺序3. 匹配示例二、Proxy_pa

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

基于Python开发一个有趣的工作时长计算器

《基于Python开发一个有趣的工作时长计算器》随着远程办公和弹性工作制的兴起,个人及团队对于工作时长的准确统计需求日益增长,本文将使用Python和PyQt5打造一个工作时长计算器,感兴趣的小伙伴可... 目录概述功能介绍界面展示php软件使用步骤说明代码详解1.窗口初始化与布局2.工作时长计算核心逻辑3

conda安装GPU版pytorch默认却是cpu版本

《conda安装GPU版pytorch默认却是cpu版本》本文主要介绍了遇到Conda安装PyTorchGPU版本却默认安装CPU的问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的... 目录一、问题描述二、网上解决方案罗列【此节为反面方案罗列!!!】三、发现的根本原因[独家]3.1 p