Linux多线程调用ubus导致死锁问题

2024-04-24 19:08

本文主要是介绍Linux多线程调用ubus导致死锁问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

测试组发现用户进程在某种特定情况下,会出现死锁,现象是进程还在S状态,但没有任何反应,所以怀疑死锁。

问题复现

通过几次测试发现,进程中设置的参数恢复出厂后重启进程很大概率会出现死锁,这时候已经把复现的方法明确,但是从复现的场景来看暂时无法定位出原因。接下来就编译问题版本进行问题跟踪。

调试方法

追查进程死锁方法我知道的有这么几种:另开线程心跳监控、另开进程心跳监控,打印调试,gdb调试,git回溯版本范围缩小;

由于进程中开了2个业务线程,所以使用另开线程心跳监控方法有弊端,死锁后调度也会卡住心跳线程导致不能准确定位;综合来看使用gdb进行调试;

GDB调式

下载gdb源码并进行交叉编译,然后拷贝到盒子进行调试;编译进程时加上-g调试信息:

./arm-linux-gnueabihf-gdb ifotond 开始复现死锁,死锁后打印如下

root@www:/mnt/emmc/lock# ./arm-linux-gnueabihf-gdb ifotond-25-g 
GNU gdb (GDB) 8.2
Copyright (C) 2018 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.
Type "show copying" and "show warranty" for details.
This GDB was configured as "arm-linux-gnueabihf".
Type "show configuration" for configuration details.
For bug reporting instructions, please see:
<http://www.gnu.org/software/gdb/bugs/>.
Find the GDB manual and other documentation resources online at:<http://www.gnu.org/software/gdb/documentation/>.For help, type "help".
Type "apropos word" to search for commands related to "word"...
Reading symbols from ifotond-25-g...done.
(gdb) r
Starting program: /mnt/emmc/lock/ifotond-25-g 
warning: Unable to find libthread_db matching inferior's thread library, thread debugging will not be available.
[Detaching after fork from child process 28336]
not set the app nameSet sleep time is 28800 
[New LWP 28341]
[New LWP 28342]
[New LWP 28343]
[WARNING]:not set the ubus name
regis id = 8
regis id = 3
regis id = 1
regis id = 2
[LWP 28343 exited]
227 ota_event_set      etype:5, e_status:1, LR:00040600
[Detaching after fork from child process 28346]
227 ota_event_set      etype:6, e_status:1, LR:000283fc
[Detaching after fork from child process 28348]
send data!type is 1!data is 07 01 ac 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 01 be 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 10 30 d4 59 56 71 e8 9a 6a b2 fc db 7e f3 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 04 07 60 2a 22 00 00 00 00 00 00 00 00 00 00 00 00 08 07 60 2a 22 d9 db 2b 89 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 
recv data!type is 0!data is 01 00 
[Detaching after fork from child process 28357]
[ERROR]:register timeout = 30 name = ifoton
Successfully captured all of multi-frame. Freeing memory.卡住了^C 断下来
Thread 1 "ifotond-25-g" received signal SIGINT, Interrupt.
0xb6cc41b0 in poll () from /lib/arm-linux-gnueabihf/libc.so.6
(gdb) 
(gdb) 
(gdb) info threadId   Target Id                Frame 
* 1    LWP 28322 "ifotond-25-g" 0xb6cc41b0 in poll ()	主进程==线程1from /lib/arm-linux-gnueabihf/libc.so.62    LWP 28341 "ifotond-25-g" 0xb6caa0c0 in nanosleep ()		线程2from /lib/arm-linux-gnueabihf/libc.so.63    LWP 28342 "ifotond-25-g" 0xb6cc41b0 in poll ()	线程3from /lib/arm-linux-gnueabihf/libc.so.6
(gdb) thread 1
[Switching to thread 1 (LWP 28322)]
#0  0xb6cc41b0 in poll () from /lib/arm-linux-gnueabihf/libc.so.6
(gdb) bt
#0  0xb6cc41b0 in poll () from /lib/arm-linux-gnueabihf/libc.so.6
#1  0x00000000 in ?? ()
Backtrace stopped: previous frame identical to this frame (corrupt stack?)

从上面打印看,死锁后主线程和线程3卡在同一个poll函数,由于进程中使用的socket通信使用的是select,所以没有直接调用poll函数;poll函数也是用于网络通信的,进程中频繁使用的ubus内部的机制就是使用的网络通信;

查询进程代码没有直接调用poll函数,poll函数在libc库实现,又由于bt没有打印出回溯信息,所以怀疑poll函数是在动态库里面调用的;

搜索动态库,可知在/lib/libubus.so:1742:poll调用,查看ubus源码,确实有调用poll函数;

ubus-1d2b3bb/libubus-io.c
static void wait_data(int fd, bool write)
{struct pollfd pfd = { .fd = fd };pfd.events = write ? POLLOUT : POLLIN;poll(&pfd, 1, -1);
}void __hidden ubus_poll_data(struct ubus_context *ctx, int timeout)
{struct pollfd pfd = {.fd = ctx->sock.fd,.events = POLLIN | POLLERR,};poll(&pfd, 1, timeout ? timeout : -1);ubus_handle_data(&ctx->sock, ULOOP_READ);
}

分析原因

到这里就知道是ubus导致的死锁,我们知道,ubus不支持多线程调用,否则容易出现死锁;进程代码中调用ubus是主线程负责,出现死锁的原因可能就是其他线程调用了ubus,这点从gdb打印也可看出;

在ubus提供的接口ubus_call、ubus_reply、ubus_send中添加参数和in/out打印,待死锁后查看参数就可知道在代码中调用的位置;

最后查出是ubus_send在复位情况后会被线程3调用,导致了主线程调用ubus_call卡住死锁,ubus_call可以明确是正常调用,通过在ubus_send中造一个空指针把pg调用顺序打出就知道了调用者,最后查出了问题原因:没有注意到复位流程会走线程3调用;

问题解决:把这个ubus_send调用加入到主线程队列等待被调用就可以了,可能会有不实时的风险;

扩展

打印调试,在怀疑死锁的模块里面加上这段代码,db_msg换成printf。

	#if 1#define pthread_mutex_lock(lock)  do { \db_msg("lock: in %d, %s", __LINE__, __FUNCTION__); \pthread_mutex_lock(lock); \db_msg("locked: in %d, %s", __LINE__, __FUNCTION__); \} while(0)#define pthread_mutex_unlock(lock)  do { \db_msg("unlock: in %d, %s", __LINE__, __FUNCTION__); \pthread_mutex_unlock(lock); \db_msg("unlocked: in %d, %s", __LINE__, __FUNCTION__); \} while(0)#endif

提示warning: Unable to find libthread_db,应该是libthread.so strap过了或者需要调用libthread_db库来支持,需要验证一下,又有说法是需要额外的libc库和libthread库(size很大)在支持调试,否则info thread信息不准确。

 

这篇关于Linux多线程调用ubus导致死锁问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/932593

相关文章

k8s容器放开锁内存限制问题

《k8s容器放开锁内存限制问题》nccl-test容器运行mpirun时因NCCL_BUFFSIZE过大导致OOM,需通过修改docker服务配置文件,将LimitMEMLOCK设为infinity并... 目录问题问题确认放开容器max locked memory限制总结参考:https://Access

Java中字符编码问题的解决方法详解

《Java中字符编码问题的解决方法详解》在日常Java开发中,字符编码问题是一个非常常见却又特别容易踩坑的地方,这篇文章就带你一步一步看清楚字符编码的来龙去脉,并结合可运行的代码,看看如何在Java项... 目录前言背景:为什么会出现编码问题常见场景分析控制台输出乱码文件读写乱码数据库存取乱码解决方案统一使

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

javacv依赖太大导致jar包也大的解决办法

《javacv依赖太大导致jar包也大的解决办法》随着项目的复杂度和依赖关系的增加,打包后的JAR包可能会变得很大,:本文主要介绍javacv依赖太大导致jar包也大的解决办法,文中通过代码介绍的... 目录前言1.检查依赖2.更改依赖3.检查副依赖总结 前言最近在写项目时,用到了Javacv里的获取视频

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

Vue3绑定props默认值问题

《Vue3绑定props默认值问题》使用Vue3的defineProps配合TypeScript的interface定义props类型,并通过withDefaults设置默认值,使组件能安全访问传入的... 目录前言步骤步骤1:使用 defineProps 定义 Props步骤2:设置默认值总结前言使用T

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

Web服务器-Nginx-高并发问题

《Web服务器-Nginx-高并发问题》Nginx通过事件驱动、I/O多路复用和异步非阻塞技术高效处理高并发,结合动静分离和限流策略,提升性能与稳定性... 目录前言一、架构1. 原生多进程架构2. 事件驱动模型3. IO多路复用4. 异步非阻塞 I/O5. Nginx高并发配置实战二、动静分离1. 职责2