【手写数据库所需C语言基础】可变结构体,结构体成员计算,类型强制转换为统一类型,数据库中使用C语言方法和技巧

本文主要是介绍【手写数据库所需C语言基础】可变结构体,结构体成员计算,类型强制转换为统一类型,数据库中使用C语言方法和技巧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 前言
  • 概述
  • 结构体定义
    • 结构体别名
    • 结构体指针
    • 结构体嵌套定义
    • 可变长结构体定义
  • 结构体大小
    • 字节大小端
    • 结构体大小
    • 结构体紧凑格式
  • 结构体地址
    • 结构体成员首地址
    • 获取成员地址
  • 结构体赋值
    • 结构体变量赋值
    • 结体体指针成员
  • 结构体类型转换
  • 总结
  • 结尾

前言

经过前面几个专栏,我们了解了数据库作为基础软件,类似于操作系统,几乎涉及到数据的应用都会使用;我们也通过手写数据库内核,开源了一款数据库,名叫toadb,它是一个轻量级的、开源的关系型数据库,它提供了基本的SQL支持和数据存储管理功能。相比于其他成熟的数据库产品,toadb更加简单和易于理解,适合初学者和数据库内核开发人员使用。通过学习和使用toadb,我们可以更好地理解数据库的基本原理,掌握数据库的核心技术,为以后的数据库设计和优化工作打下坚实的基础。

toadb是使用C语言编写,在内核开发过程中,我们发现一些初学者,对于数据库中使用C语言方法和技巧,阅读代码时需要学习。本专栏就特别将这些方法和技巧整理出来,方便初学者系统的了解和学习,以便很快能上手数据库内核的开发,不致于在开发语言层面遇到很多障碍,更多精力在数据库理论的实践。

本专栏建议为学习过C语言基础知识的读者,可以进一步深入学习,更贴进实际项目的开发应用。

概述

本文主要分享一下,C语言中最常用的数据结构常用的使用方法和技巧。C语言为了定义复杂的数据类型,引入了数据结构 struct,可以通过对基础数据类型的组合,自定义符合现实的组合类型。因为是对于多个基础数据类型的组合,所以引出了很多问题,如数据结构的大小如何计算,成员的地址是多少,字节大小端带来的影响如何消除等等。

通过以下四部分来系统的了解结构的知识:

  • 结结体定义
  • 结构体地址
  • 结构体大小
  • 结构体赋值
  • 结构体类型转换

结构体定义

如何定义出一个符合我们代码要求的结构体类型,同时在使用中可以简单明了,下面我们一起来看一下实际中如何定义。

结构体别名

在C语言中结构体的定义很简单,如下:

#define NAME_MAX_LEN  64
struct ColumnDefInfo
{char colName[NAME_MAX_LEN];int type;int options;
};

这样就定义了一个名为ColumnDefInfo的结构定,当我们定义该类型的变量时,会如下使用

struct ColumnDefInfo stColumn; 

每次都要多写struct这个单词,当写上几十上百遍时,是不是也很烦的;这就用到C语言的一个特性,给这个结构体定义一个别名,平常使用别名就可以

typedef struct ColumnDefInfo
{char colName[NAME_MAX_LEN];int type;int options;
}ColumnDefInfo;         ColumnDefInfo stColumn;  // 定义变量 

在定义结构体struct ColumnDefInfo的同时定义别名为ColumnDefInfo,这样在定义变量或引用结构体类型的地方,就可以直接使用别名即可,是不是看这简洁很多,当然为了区分结构体类型,可以加上st等前缀,统一命名。

结构体指针

C语言的实际使用中,避免不了指针类型,结构体类型的指针也是我们常用的,当函数参数需要传递结构体时,需要动态分配空间时等等,普通写法如下:

ColumnDefInfo *pstColumn = NULL; // 定义变量 

每次都会像普通类型定义指针一样,当然也没有错,因为结构体名已经是复杂类型了,如何通过类型就能区分是值还是指针类型呢? 高手一般会如下定义。

typedef struct ColumnDefInfo *PColumnDefInfo;

或者在结构体定义时,同时定义好对应的指针类型。

typedef struct ColumnDefInfo
{char colName[NAME_MAX_LEN];int type;int options;
}ColumnDefInfo, *PColumnDefInfo;PColumnDefInfo pstColumn = NULL;  // 定义变量 

这时定义结构体指针,直接使用对应的指针类型PColumnDefInfo,这样是不是又可以简洁一些,在函数入参中,看到这样的结构体名,我们立马就可以知道它是指针类型了。

结构体嵌套定义

结构体可以定义出来很复杂的类型,但是现实世界更复杂,很多事务都有层次关系,这就必须用到嵌套的结构体定义。

比如表是有行数据组成,那么表的结构体定义中,嵌套有行的结构体定义,如下:

#define FLEXIBLE_SIZE 10
typedef struct TableMetaInfo
{int tableId;int tableType;char tableName[NAME_MAX_LEN];int colNum;ColumnDefInfo column[FLEXIBLE_SIZE];
}TableMetaInfo, *PTableMetaInfo;

这次在定义时,就直接使用了上面介绍的技巧,别名,指针类型定义。我们定义了一个表的结构体TableMetaInfo,表有名字,ID等,还有行数量,以及行的数据结构定义,因为行的数量不确定,所以这里定义是一个数组。

对于嵌套结构体,在引用成员时,就有一些麻烦,如果在几层的嵌套,可以写一长串。

PTableMetaInfo stTblInfo;
int i; // 其它代码 stTblInfo->colum[i].type = 1;

这里需要注意的是,在嵌套结构体时,要注意内层成员结构体是值类型,还是指针类型,如果是值类型就要用.来引用成员,如果是指针定类的话用->引用成员,在实际使用中,我们可以看到在一条语句中两个混合使用的情况,这就是根据不同的类型进行选择。

可变长结构体定义

每一个表中的数据行,在结构体定义时,我们是不能预知的,它可以有一行,也可以有一万行,那如何定义这个数据结构呢,这就是可变长结构体定义;可变长的数据结构定义中,有一个成员来记录变长部分的大小,如行的数量colNum,而column是行数据,它的数量在每个表中都是不一样的,由动态决定大小。

使用变长结构体方法来定义,如下

#define FLEXIBLE_SIZE 
typedef struct TableMetaInfo
{int tableId;int tableType;char tableName[NAME_MAX_LEN];int colNum;ColumnDefInfo column[FLEXIBLE_SIZE];
}TableMetaInfo, *PTableMetaInfo;

其中,行数据数组 column[FLEXIBLE_SIZE] 的维度定义FLEXIBLE_SIZE 并没有给出明确的值,这里相当于可变数组的定义

int array[] = {1,2,3};

此时,TableMetaInfo结构体默认大小中,其实没有包括行的结构定义大小,我们通过程序简单输出它们的size。

printf("table size=%d, column size=%d\n", sizeof(TableMetaInfo), sizeof(ColumnDefInfo));

得到的结果如下

table size=76, column size=72

可以看到TableMetaInfo结构体默认大小只有前四个成员的大小,并不包括行数据结构的大小。那么问题来了,如何定义变量呢?

在定义变量时,我们一般动态申请内存,再通过成员数组来访问。

结构体大小

不管是动态申请内容,还是局部变量的定义,我们都需要知道结构体占多少内存空间,尤其是在多并发之间进行交互时,要尽量减少交互数据量。
下面介绍一下结构体大小,在实际应用中的那些事儿。

字节大小端

在介绍结构体大小时,我们首先要知道计算机存储我们的变量值时,并不是按照从左到右完成从高位到低位的存储,而是不同操作系统规定了自己的一个字节顺序。

在常用的X86 CPU架构中,常用的就是小端存储,即0x1234, 在内存中低位是0x34,高位是0x12,进行了反转。

这在一些结构体转为其它类型时,常常会遇到字节序问题,还有一些网络数据转为结构体数据时,明明看似没有问题,但是成员的值就是不对,这就是不同数据对应的字节序在作怪。

结构体大小

对于结构体这一复杂的自定义类型,计算机对访问内存做了一定的优化,也就是字节对齐。如下结构体,

typedef struct A 
{char a;int b;double c;
}st_A;

这个结构体st_A中只有三个成员,sizeof(st_A)算出来是16字节,符合你的预期吗? 单从代码看,只有13字节,如何多出了3字节呢? 这就是计算机内部优化的结果,成员b的地址被对齐到了四字节上,也就是成员ab的地址相差4,而不是字面上的1字节,这样就多出了3字节。

如果定义了一个结构体类型的唯一标识,而其中成员的类型不同时,将这个标识按字节进行计算hash值时,就会存在问题,因为多出来的3字节,永远不知道它的值到底是什么,那么虽然成员的值都是一样的,但是算出来的hash却有可能不同。

结构体紧凑格式

上面介绍了,计算机会对结构体采用字节对齐的优化,当然这是一种空间换时间的方式。如果我们对于空间比较敏感时,就要放弃这种默认的优化了,这就定义成紧凑格式。

typedef struct __attribute__((packed)) A 
{char a;int b;double c;
}st_A;

这样就告诉编译器,不要在成员间加多余的字节。有多种写法,也可以用 __attribute__((aligned(1)))

结构体地址

C语言中经常使用地址来访问内存,如结构体的指针,也即地址,那么对于结构体类型的变量,它会有几种地址需要我们注意了。

结构体成员首地址

想必大家会有疑问,结构体的首地址,就是结构体指针内容嘛,不是很简单吗?

没错,是的,我们举个例子来说明。

/* 10个table ,平均每个table 中有4行数据 */
PTableMetaInfo tbl = (PTableMetaInfo)malloc(sizeof(TableMetaInfo) * 10 + sizeof(ColumnDefInfo) * 40);PTableMetaInfo pstTbl = tbl;  

这里用指针pstTbl来遍历数组tbl,那么pstTbl++都会移动sizeof(TableMetaInfo)字节,这样使用是正确的吗?

前面我们介绍了变长结构体,这里的sizeof(TableMetaInfo)中,是不包括最后一个成员的长度的,所以下一个数据结构的首地址不是通过默认的偏移得到的,这里就需要计算了,根据成员colNum来计算需要偏移多少了。

#define GET_NEXT_TABLE(addr) ((addr) + sizeof(TableMetaInfo) + (addr)->colNum * sizeof(ColumnDefInfo))

GET_NEXT_TABLE这个宏定义,就是进行可变长结构体的数组偏移计算,而不是简单的通过默认运算得到。

获取成员地址

结构体成员的地址,可以通过->.引用的方式获得,当然也可以计算获得,比如ColumnDefInfo结构体中,成员type与结构体首地址相差64字节,就可以通过首地址来计算。

通过计算方式获取成员的地址时,尤其在非紧凑格式的定义的结构体时,就需要特别注意结构体成员并不一定是基础类型的字节数,要根据结构体类型字节对齐规则进行计算;对于可变长结构体,不能使用指针的默认+1移动方式,需要自己计算偏移,这在另一篇博客《C语言可变数组 嵌套的可变数组》中有详细介绍。

结构体赋值

结构体的赋值方法不同于基础类型,也有很多方式进行赋值,需要正确的使用。

结构体变量赋值

一般结构体类型的变量,我们都会清零操作,有两种方法进行初始化为零,如下示例:

struct ColumnDefInfo stColumn = {0}; memset(&stColumn, 0x00, sizeof(stColumn));
  • 在定义时,使用初始化方式进行置零,这种方式如果只写一个0,所有内容都会置零,也可以根据成员数量和类型分别写出初始化的值;
  • 使用内存操作方式,初始化为0,这种方式要能正确计算结构体的大小;

结体体指针成员

当结构体中有指针成员时,在结构体拷贝时就会存在深拷贝和浅拷贝的问题。当一处结构体直接赋值给另一个结构体变量时,它们的指针成员指向的地址是一样的,所以释放内存时需要判空,非空时才释放。

当结构体中有可变长成员时,与指针成员一样,赋值时需要特别注意,两个结构体变量内存大小是否可以容纳新值。

结构体类型转换

在数据库中,尤其执行计划,执行器处理等地方,为了方便统一使用相同的函数调用,将不同类型的结构体会强转成统一的类型,如下所示:

typedef struct Node
{NodeType type;
}Node, *PNode;typedef struct NestLoop
{NodeType    type;PNode       leftplan;PNode       rightplan;PNode       expr;         /* join expr */int         isJoin;int         mergeType;PList       targetList;   /* result columns */
}NestLoop, *PNestLoop;PNestLoop nl = NewNode(NestLoop);
PNode node = (PNode)nl;

为了达到可以相互转换,如示例所示,在结构体NestLoop的第一个成员为type, 与结构体Node的成员是一致的,这样由NestLoop强制转换为Node类型时,就只能看到成员type了。

这样类似的其它节点类型,都可以转为结构体Node,然后根据节点类型选择不同的处理调用,进行执行,这样就可以达到统计处理调用的目的。

总结

在我们进行C语言学习时,只是学习了基础的结构体使用,需要在实际使用中不断加深对它的理解,从内存部局,成员地址对齐,拷贝赋值等各方面进行探索,在数据库中,对于C语言结构体的使用方法非常丰富,在学习数据库内核过程,我们对于C语言的驾驭也会精进。

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

这篇关于【手写数据库所需C语言基础】可变结构体,结构体成员计算,类型强制转换为统一类型,数据库中使用C语言方法和技巧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/369118

相关文章

Android 12解决push framework.jar无法开机的方法小结

《Android12解决pushframework.jar无法开机的方法小结》:本文主要介绍在Android12中解决pushframework.jar无法开机的方法,包括编译指令、框架层和s... 目录1. android 编译指令1.1 framework层的编译指令1.2 替换framework.ja

使用Python创建一个功能完整的Windows风格计算器程序

《使用Python创建一个功能完整的Windows风格计算器程序》:本文主要介绍如何使用Python和Tkinter创建一个功能完整的Windows风格计算器程序,包括基本运算、高级科学计算(如三... 目录python实现Windows系统计算器程序(含高级功能)1. 使用Tkinter实现基础计算器2.

在.NET平台使用C#为PDF添加各种类型的表单域的方法

《在.NET平台使用C#为PDF添加各种类型的表单域的方法》在日常办公系统开发中,涉及PDF处理相关的开发时,生成可填写的PDF表单是一种常见需求,与静态PDF不同,带有**表单域的文档支持用户直接在... 目录引言使用 PdfTextBoxField 添加文本输入域使用 PdfComboBoxField

SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法

《SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法》在SQLyog中执行存储过程时出现的前置缩进问题,实际上反映了SQLyog对SQL语句解析的一个特殊行为,本文给大家介绍了详... 目录问题根源正确写法示例永久解决方案为什么命令行不受影响?最佳实践建议问题根源SQLyog的语句分

Git可视化管理工具(SourceTree)使用操作大全经典

《Git可视化管理工具(SourceTree)使用操作大全经典》本文详细介绍了SourceTree作为Git可视化管理工具的常用操作,包括连接远程仓库、添加SSH密钥、克隆仓库、设置默认项目目录、代码... 目录前言:连接Gitee or github,获取代码:在SourceTree中添加SSH密钥:Cl

MySQL数据库约束深入详解

《MySQL数据库约束深入详解》:本文主要介绍MySQL数据库约束,在MySQL数据库中,约束是用来限制进入表中的数据类型的一种技术,通过使用约束,可以确保数据的准确性、完整性和可靠性,需要的朋友... 目录一、数据库约束的概念二、约束类型三、NOT NULL 非空约束四、DEFAULT 默认值约束五、UN

Python中模块graphviz使用入门

《Python中模块graphviz使用入门》graphviz是一个用于创建和操作图形的Python库,本文主要介绍了Python中模块graphviz使用入门,具有一定的参考价值,感兴趣的可以了解一... 目录1.安装2. 基本用法2.1 输出图像格式2.2 图像style设置2.3 属性2.4 子图和聚

windows和Linux使用命令行计算文件的MD5值

《windows和Linux使用命令行计算文件的MD5值》在Windows和Linux系统中,您可以使用命令行(终端或命令提示符)来计算文件的MD5值,文章介绍了在Windows和Linux/macO... 目录在Windows上:在linux或MACOS上:总结在Windows上:可以使用certuti

CentOS和Ubuntu系统使用shell脚本创建用户和设置密码

《CentOS和Ubuntu系统使用shell脚本创建用户和设置密码》在Linux系统中,你可以使用useradd命令来创建新用户,使用echo和chpasswd命令来设置密码,本文写了一个shell... 在linux系统中,你可以使用useradd命令来创建新用户,使用echo和chpasswd命令来设

Python使用Matplotlib绘制3D曲面图详解

《Python使用Matplotlib绘制3D曲面图详解》:本文主要介绍Python使用Matplotlib绘制3D曲面图,在Python中,使用Matplotlib库绘制3D曲面图可以通过mpl... 目录准备工作绘制简单的 3D 曲面图绘制 3D 曲面图添加线框和透明度控制图形视角Matplotlib