一个低级Illegal instruction错误的定位--忽略编译期警告就得加倍偿还

本文主要是介绍一个低级Illegal instruction错误的定位--忽略编译期警告就得加倍偿还,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这个问题是我在开发心跳服务器时的一个笔误,其实错误非常的低级浅显,特别写篇文章是想告诉大家,编译期的警告是非常重要的!由于项目代码量大,编译期信息很多,我在忙于联调时就悲催的忽视了一条编译期警告信息,实际上这个警告解决问题实在是方便,我忽略了它直接从core上 啃哧 啃哧定位问题花的时间比之多了去了。这篇文章的目的就是以这个很天真又很容易犯的笔误错误,来提醒大家:请不要忽略任何编译期的警告,磨刀不误砍柴工,它会极大的节省定位BUG的时间!同时,这篇文章在定位Illegal instruction错误时,也说明了gdb的bt显示的core代码行为什么是错误的。

心跳服务器是一个多线程服务器,提供UDP和HTTP服务,日志记录使用了log4cpp。由于各种原因项目不断延迟,所以这个服务器的代码我好一段时间没碰了。这会儿改了一大堆代码,功能测试都通过了,开始做压力测试。压力客户端模拟数以百计的客户端时一直没出问题,直到千、万级时,开始不定时的出现coredump核心转储。问题可以重现,但必须是大压力下,不好单步调。于是只能先产生core文件并分析之:
gdb ./rhs core.7714 
...
Core was generated by `./rhs'.
Program terminated with signal 4,Illegal instruction.
[New process 7716]
[New process 7721]
[New process 7720]
[New process 7719]
[New process 7718]
[New process 7717]
[New process 7715]
[New process 7714]
#0  0x000000000040f06c in HeartbeatProcesser::compete (this=0x149dcac0) at ProcessHeartbeat.cpp:405
405                                             break;

很诡异,居然会core在了break这行代码上,有点浮想联翩,break怎么可能会挂掉呢?有蹊跷。这段代码结构是这样的:
int HeartbeatProcesser::compete()
{int procNum = 0;const struct timeval& now = GetSystemTime();for (unsigned int i = 0; i < m_vecAgentStatus.size(); i++ ) {...do {...++procNum;...if (procNum >= m_iCompeteMaxNumOneTime) {...break; //这就是第405行!竟然core在了这里!怎么可能?}INFO_LOG("id[%s] ...", packet->strid, ...);...} while (...);}return procNum;
}

分析这个break曾经行经的代码分支,实在找不到原因。
再看看到底挂在了哪行汇编语句下:
(gdb) x/i $pc
0x40f06c <_ZN18HeartbeatProcesser7competeEv+752>:       ud2a   

有点恍然了, ud2a一般都是编译时出了问题!
于是再对照着compete函数看看编译后的汇编代码:
(gdb) disas compete
Dump of assembler code for function _ZN18HeartbeatProcesser7competeEv:
... ...
//下面这句对应int procNum = 0;   其中,-0x44(%rbp)就是procNum变量,以下分析时经常会用到它
0x000000000040ed8c <_ZN18HeartbeatProcesser7competeEv+16>:      movl   $0x0,-0x44(%rbp)
0x000000000040ed93 <_ZN18HeartbeatProcesser7competeEv+23>:      callq  0x4161fc <_Z13GetSystemTimev>
... ...
//下面两行和+770对应for (unsigned int i = 0; i < m_vecAgentStatus.size(); i++ )   其中,-0x34(%rbp)是i变量
0x000000000040edb8 <_ZN18HeartbeatProcesser7competeEv+60>:      movl   $0x0,-0x34(%rbp)
0x000000000040edbf <_ZN18HeartbeatProcesser7competeEv+67>:      jmpq   0x40f082 <_ZN18HeartbeatProcesser7competeEv+774>
... ...
//下面这句对应++procNum;   上面说过,-0x44(%rbp)就是procNum变量
0x000000000040eeb4 <_ZN18HeartbeatProcesser7competeEv+312>:     addl   $0x1,-0x44(%rbp)
... ...
//下面三行对应if (procNum >= m_iCompeteMaxNumOneTime) {,其中0xf8(%rax)是m_iCompeteMaxNumOneTime
0x000000000040f03f <_ZN18HeartbeatProcesser7competeEv+707>:     mov    0xf8(%rax),%eax
0x000000000040f045 <_ZN18HeartbeatProcesser7competeEv+713>:     cmp    -0x44(%rbp),%eax
0x000000000040f048 <_ZN18HeartbeatProcesser7competeEv+716>:     jg     0x40f06c <_ZN18HeartbeatProcesser7competeEv+752>
//下面这段才是if条件为真是才执行的代码,从718到745只是打log而已
0x000000000040f04a <_ZN18HeartbeatProcesser7competeEv+718>:     mov    -0x30(%rbp),%rax
0x000000000040f04e <_ZN18HeartbeatProcesser7competeEv+722>:     mov    0x18(%rax),%ecx
0x000000000040f051 <_ZN18HeartbeatProcesser7competeEv+725>:     mov    0x26d5c0(%rip),%rdi        # 0x67c618 <perflog>
0x000000000040f058 <_ZN18HeartbeatProcesser7competeEv+732>:     mov    -0x44(%rbp),%edx
0x000000000040f05b <_ZN18HeartbeatProcesser7competeEv+735>:     mov    $0x4563b0,%esi
0x000000000040f060 <_ZN18HeartbeatProcesser7competeEv+740>:     mov    $0x0,%eax
0x000000000040f065 <_ZN18HeartbeatProcesser7competeEv+745>:     callq  0x41d590 <_ZN7log4cpp8Category6noticeEPKcz>
//其实下面这一行才是break;,可以看到,这里不可能core掉的
0x000000000040f06a <_ZN18HeartbeatProcesser7competeEv+750>:     jmp    0x40f07e <_ZN18HeartbeatProcesser7competeEv+770>
//实际上是core在了这一行,也就是 INFO_LOG(这行语句
0x000000000040f06c <_ZN18HeartbeatProcesser7competeEv+752>:     ud2a  //后面是for (unsigned int i = 0; i < m_vecAgentStatus.size(); i++ ) 循环中的i++,条件判断等
0x000000000040f07e <_ZN18HeartbeatProcesser7competeEv+770>:     addl   $0x1,-0x34(%rbp)
... ...
0x000000000040f09a <_ZN18HeartbeatProcesser7competeEv+798>:     jne    0x40edc4 <_ZN18HeartbeatProcesser7competeEv+72>
//下面则是compete函数返回,对应return procNum;,一般返回值是放到eax寄存器返回的
0x000000000040f0a0 <_ZN18HeartbeatProcesser7competeEv+804>:     mov    -0x44(%rbp),%eax
0x000000000040f0a3 <_ZN18HeartbeatProcesser7competeEv+807>:     add    $0x98,%rsp
0x000000000040f0aa <_ZN18HeartbeatProcesser7competeEv+814>:     pop    %rbx
0x000000000040f0ab <_ZN18HeartbeatProcesser7competeEv+815>:     leaveq 
0x000000000040f0ac <_ZN18HeartbeatProcesser7competeEv+816>:     retq  

现在明白了,原来bt后显示的C代码挂在的break语句是错误的(可能是编译优化所致)!汇编代码显示是挂在了INFO()这行打印日志的语句上,当然以汇编为准了!于是看 if (procNum >= m_iCompeteMaxNumOneTime) 条件为假时,其实是去执行INFO_LOG("id[%s] ...", packet->strid, ...);,但为什么编译器显示为ud2a呢?
阅读代码时发现,INFO_LOG("id[%s]中的第1个参数,被临时改为了packet->strid,而这个strid并不是char*,而是c++中stl里的string对象!一个非常浅显的错误。
实际上,这种笔误问题编译器早就发现了,只是我对打印了几个屏的make结果忽视了,发现编译完成后就开始测试了。编译时的警告信息很清晰:
[root@houyi-vm02 rhs0.1]# make
cd src/server; make all 
... ...
g++ -c -I../../include/  -Wall -g -fpermissive  -DCM_UNIX -DCM_LINUX -DCM_DEBUG -o ProcessHeartbeat.o ProcessHeartbeat.cpp 
ProcessHeartbeat.cpp: In member function âint HeartbeatProcesser::compete()â:
ProcessHeartbeat.cpp:408: warning: cannot pass objects of non-POD type âstruct std::stringâ through â...â; call will abort at runtime
... ...

可见,gcc提示的非常清楚,使用错string对象了!

写了这么多,我想说的是,在每一次编译过程中,都要非常认真的对待编译期的警告信息,这会大大节省定位问题的时间,否则就不得不苦逼的一行行去查到底哪里出问题了。


这篇关于一个低级Illegal instruction错误的定位--忽略编译期警告就得加倍偿还的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/251469

相关文章

Go语言编译环境设置教程

《Go语言编译环境设置教程》Go语言支持高并发(goroutine)、自动垃圾回收,编译为跨平台二进制文件,云原生兼容且社区活跃,开发便捷,内置测试与vet工具辅助检测错误,依赖模块化管理,提升开发效... 目录Go语言优势下载 Go  配置编译环境配置 GOPROXYIDE 设置(VS Code)一些基本

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at

java使用protobuf-maven-plugin的插件编译proto文件详解

《java使用protobuf-maven-plugin的插件编译proto文件详解》:本文主要介绍java使用protobuf-maven-plugin的插件编译proto文件,具有很好的参考价... 目录protobuf文件作为数据传输和存储的协议主要介绍在Java使用maven编译proto文件的插件

SpringBoot+Docker+Graylog 如何让错误自动报警

《SpringBoot+Docker+Graylog如何让错误自动报警》SpringBoot默认使用SLF4J与Logback,支持多日志级别和配置方式,可输出到控制台、文件及远程服务器,集成ELK... 目录01 Spring Boot 默认日志框架解析02 Spring Boot 日志级别详解03 Sp

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性:

CSS Anchor Positioning重新定义锚点定位的时代来临(最新推荐)

《CSSAnchorPositioning重新定义锚点定位的时代来临(最新推荐)》CSSAnchorPositioning是一项仍在草案中的新特性,由Chrome125开始提供原生支持需... 目录 css Anchor Positioning:重新定义「锚定定位」的时代来了! 什么是 Anchor Pos

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

如何解决Druid线程池Cause:java.sql.SQLRecoverableException:IO错误:Socket read timed out的问题

《如何解决Druid线程池Cause:java.sql.SQLRecoverableException:IO错误:Socketreadtimedout的问题》:本文主要介绍解决Druid线程... 目录异常信息触发场景找到版本发布更新的说明从版本更新信息可以看到该默认逻辑已经去除总结异常信息触发场景复