【经验分享】PT(persistent table)表异常导致gprecoverseg全量恢复失败的探索

本文主要是介绍【经验分享】PT(persistent table)表异常导致gprecoverseg全量恢复失败的探索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

73fb7321-b931-460b-9e54-807a124126d8.jpg

 

了解更多Greenplum相关内容,欢迎访问Greenplum中文社区网站

背景

最近来自中兴通讯的系统架构师、敏捷教练王爱军在工作过程中,遇到gp5.20通过 gprecoverseg -F做全量恢复失败的异常。master和primary的pg_log日志中打印internal error,然后primary crash。本文分享问题的定位过程以及涉及到相关概念,供大家学习参考。

 

一、问题现象

 

1.1 集群状态查看

 

[gpadmin@instance-eqmn04jr pg_log]$ gpstate -s

 

8214e94d-7648-4b3d-ae4f-ef3f64c1e9ed.png

图1 Mirror Down

 

1.2 全量恢复

 

[gpadmin@instance-eqmn04jr pg_log]$ gprecoverseg -F

 

5125f619-e267-43dc-963c-c81ba68685fa.png

图2 gprecoverseg失败

 

1.3 master日志

 

5e10f6d7-914d-492c-86c7-a43057183b48.png

图3 master pg_log

 

  • 日志打印:QE执行command失败

    could not execute command on QE (cdbdisp_query.c:550)","Unexpected internal error (cdbpersistentfilespace.c:1163)。

  • QE:Query Executor对应primary segment。

  • QD:Query Dispatcher对应master。

 

1.4 primary日志

 

cfaceeac-daed-4833-9966-85ff1d51401b.png

图4 master pg_log

 

日志中线索:

  • "cdbpersistentfilespace.c",1163行代码抛异常。
  • PersistentFilespace_AddMirror 被调用
  • gp_add_segment_persistent_entries被调用

 

二、源码分析

 

代码位置:src/backend/cdb/ cdbpersistentfilespace.c

 

2.1 函数入口

 

51e6ecb9-2671-4a95-a513-3c178c7cf601.png

图5 函数入口

 

函数入参数说明:

  • filespace:文件空间oid

  • mirpath:mirror路径

  • pridbid:primary dbid

  • mirdbid:mirror dbid

 

2.2 抛错代码1163行

 

84bcf6d1-d1ee-48ec-8cb5-1eb8f2d78e93.png

图6 抛错代码

 

代码分析可以得到:

  • filespace对应的dbId1和dbId2 都不等于当前的pridbid,因而抛异常。

  • PT表(gp_persistent_filespace_node )数据可能出现不一致。

 

2.3 gp_persistent_filespace_node数据

 

i. utility方式查看filespace的PT信息

 

[gpadmin@instance-eqmn04jr cdb]$ PGOPTIONS='-c gp_session_role=utility' psql -dpostgres -p 25432

 

d6df3c08-bf23-4cfe-acc1-700ec9d13fed.png

图7 PT filespace信息

 

ii. 查看segment信息

 

[gpadmin@instance-eqmn04jr cdb]$ psql -dpostgres

 

ec1ffb79-1ccf-42ee-8542-044f95cf94c0.png

图8 segment信息

 

很明显gp_persistent_filespace_node中的db_id_1=21是一个不存在的dbid,在进行filespace状态同步匹配不到,从而抛错。正确的db_id_1应该为port=25432对应的dbid=2。

 

2.4 问题解决

 

i.更新PT(gp_persistent_filespace_node表)为正确值。

 

  示例:

1c484285-ac3e-4515-87ea-52bcf492ab1c.png

图9 更新PT表

 

(注:i.catalog表修改非常危险不要随意操作)

ii.重启集群,然后再次全量同步恢复mirror。

iii.PT表的修复需要在原厂专业人员指导下操作,否则可能会导致整个集群启动失败。

 

2.5 问题回顾

 

PT表的信息错误,遇到的非常偶然,该故障的定位和修复过程非常曲折,如不修复对整个集群有很大风险。

 

该故障应该是gp5.20的版本bug,已反馈给原厂研发人员,但由于故障难以复现,修复可能需要一些时间。很可能是数据库负荷过重,在做gprecoverseg增量恢复的时候primary segment crash,进而导致的状态同步信息没有正确的更新到对应的PT表中。

 

 

57d25da0-94f1-4e94-9d15-8f3c7e27c783.png

图10 release notes

 

三、概念说明

 

3.1 PT 表

 

PT(persistent table)的包含如下四张表,使用场景为通过gprecoverseg进行segment恢复,跟踪对象恢复的状态。
 

21af7a2c-57d5-4f21-b29b-e56dc1d70a2a.png

表1 PT表

 

3.2 实体对应的层次关系   

 

d8837381-f5f1-44d3-b910-fa7c41f2d0a3.png

图11 实体层次关系

 

为了提升IO能力,文件空间filespace可以指向高速存储,如ssd。表空间建立在对应的filespace,表建立在相应的tablespace上。创建文件空间的命令可以参考gpfilespace用法。PT表和filespace概念适用于gp5.x版本,gp6.x 取消了filespace以及PT表。

 

四、总结

 

本文总结了通过pg_log日志和源代码相结合,进行全量恢复失败的问题定位和解决过程。通过该方式可以洞悉问题的本源,对更好的运维Greenplum数据库提供帮助。

 

五、参考信息

 

https://github.com/greenplum-db/gpdb

https://docs.greenplum.org

https://cn.greenplum.org

 

作者简介

 

王爱军,中兴通讯系统架构师&敏捷教练

20年来一直工作在一线的老码农,目前就职于中兴通讯。主要工作方向为5G网络管理系统架构,近期在使用和研究Greenplum。


up-f175fefbeb33b30075a094498c554b31130.png


 

这篇关于【经验分享】PT(persistent table)表异常导致gprecoverseg全量恢复失败的探索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/162631

相关文章

Java对异常的认识与异常的处理小结

《Java对异常的认识与异常的处理小结》Java程序在运行时可能出现的错误或非正常情况称为异常,下面给大家介绍Java对异常的认识与异常的处理,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参... 目录一、认识异常与异常类型。二、异常的处理三、总结 一、认识异常与异常类型。(1)简单定义-什么是

Python虚拟环境与Conda使用指南分享

《Python虚拟环境与Conda使用指南分享》:本文主要介绍Python虚拟环境与Conda使用指南,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、python 虚拟环境概述1.1 什么是虚拟环境1.2 为什么需要虚拟环境二、Python 内置的虚拟环境工具

Python主动抛出异常的各种用法和场景分析

《Python主动抛出异常的各种用法和场景分析》在Python中,我们不仅可以捕获和处理异常,还可以主动抛出异常,也就是以类的方式自定义错误的类型和提示信息,这在编程中非常有用,下面我将详细解释主动抛... 目录一、为什么要主动抛出异常?二、基本语法:raise关键字基本示例三、raise的多种用法1. 抛

MySQL版本问题导致项目无法启动问题的解决方案

《MySQL版本问题导致项目无法启动问题的解决方案》本文记录了一次因MySQL版本不一致导致项目启动失败的经历,详细解析了连接错误的原因,并提供了两种解决方案:调整连接字符串禁用SSL或统一MySQL... 目录本地项目启动报错报错原因:解决方案第一个:第二种:容器启动mysql的坑两种修改时区的方法:本地

Java空指针异常NullPointerException的原因与解决方案

《Java空指针异常NullPointerException的原因与解决方案》在Java开发中,NullPointerException(空指针异常)是最常见的运行时异常之一,通常发生在程序尝试访问或... 目录一、空指针异常产生的原因1. 变量未初始化2. 对象引用被显式置为null3. 方法返回null

MySQL的ALTER TABLE命令的使用解读

《MySQL的ALTERTABLE命令的使用解读》:本文主要介绍MySQL的ALTERTABLE命令的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、查看所建表的编China编程码格式2、修改表的编码格式3、修改列队数据类型4、添加列5、修改列的位置5.1、把列

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、

JDK9到JDK21中值得掌握的29个实用特性分享

《JDK9到JDK21中值得掌握的29个实用特性分享》Java的演进节奏从JDK9开始显著加快,每半年一个新版本的发布节奏为Java带来了大量的新特性,本文整理了29个JDK9到JDK21中值得掌握的... 目录JDK 9 模块化与API增强1. 集合工厂方法:一行代码创建不可变集合2. 私有接口方法:接口

电脑系统Hosts文件原理和应用分享

《电脑系统Hosts文件原理和应用分享》Hosts是一个没有扩展名的系统文件,当用户在浏览器中输入一个需要登录的网址时,系统会首先自动从Hosts文件中寻找对应的IP地址,一旦找到,系统会立即打开对应... Hosts是一个没有扩展名的系统文件,可以用记事本等工具打开,其作用就是将一些常用的网址域名与其对应

redis在spring boot中异常退出的问题解决方案

《redis在springboot中异常退出的问题解决方案》:本文主要介绍redis在springboot中异常退出的问题解决方案,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴... 目录问题:解决 问题根源️ 解决方案1. 异步处理 + 提前ACK(关键步骤)2. 调整Redis消费者组