本文主要是介绍人间四月天,bug无处钻,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
你是人间的四月天
笑响点亮了四面风
轻灵在春的光艳中交舞着变

一. 缘来缘起
人间四月天,bug无处钻,让bug没有藏身之地。今天,我们来聊句柄泄漏的定位。部分朋友遇到性能问题时,束手无策。别担心,我们一起实践,不信你搞不定。
另外,性能优化,也是区分初级工程师和高级工程师的标志之一。在面试的时候,经常会被问到如何做性能优化,那些只背诵过八股文考试题目的人,有可能歇菜。
遇到性能瓶颈,该如何去优化呢?本文用实战例子,带大家一起来查问题,干货满满,建议有兴趣的朋友,亲自试一下。不仅为笔试面试,更重要是为实际工作。
二. 句柄泄漏
曾经,百度笔试的一个题目为:
一个进程能打开多少文件句柄?
看到这个问题,有的人懵圈了,还说不知道啊。其实,这个问题并不是考查你的记忆能力,而是考查你有没有一定的实战经验。
我们直接用ulimit -a命令来看下:
ubuntu@VM-0-15-ubuntu:~$ ulimit -acore file size (blocks, -c) 0data seg size (kbytes, -d) unlimitedscheduling priority (-e) 0file size (blocks, -f) unlimitedpending signals (-i) 3301max locked memory (kbytes, -l) 64max memory size (kbytes, -m) unlimitedopen files (-n) 1024pipe size (512 bytes, -p) 8POSIX message queues (bytes, -q) 819200real-time priority (-r) 0stack size (kbytes, -s) 8192cpu time (seconds, -t) unlimitedmax user processes (-u) 3301virtual memory (kbytes, -v) unlimitedfile locks (-x) unlimitedubuntu@VM-0-15-ubuntu:~$
可以看到,在我的机器上,一个进程能打开的最大句柄数是1024,我们来写个简单程序测试一下:
#include <stdio.h>#include <stdlib.h>#include <unistd.h>#include <fcntl.h>int fun(){static int count = 0;count++;int fd = open("/dev/urandom", O_RDONLY);if(-1 == fd){printf("error, %d\n", count);exit(1);}// close(fd); // do not close fd, just for testingreturn 0;}int main(){while(1){fun();}}
编译运行,结果为:
ubuntu@VM-0-15-ubuntu:~$ gcc a.c && ./a.outerror, 1022ubuntu@VM-0-15-ubuntu:~$
想一下,这是为什么?很显然,第1022次调用出错了,也就是说,已经成功生成了1021个句柄。不是能生成1024个句柄吗?另外3个去哪里呢?显然,另外3个是:标准输入、标准输出、标准错误。
可见,进程打开的句柄最大数,确实是1024(不同环境可能不一样)。那么,如果句柄一直不关掉,持续上涨,就会造成资源泄漏,导致系统性能降低,而且会导致程序出错,这是慢性病,严重得很。
三. 定位方法
下面,我们看一段有句柄泄漏的程序:
#include <stdio.h>#include <unistd.h>#include <fcntl.h>int getRand(){int randNum = 0;int fd = open("/dev/urandom", O_RDONLY);if(-1 == fd){// handle error}read(fd, (char *)&randNum, sizeof(int));return randNum;}int main(){while(1){getRand();sleep(1);}}
有的朋友要说,这简单啊,一眼就知句柄泄漏。其实不然,实际工程的代码,经常是几万几十万行,肉眼看是不行的。
而且,很多时候,压根就不知道哪个进程在泄漏句柄。所以,我们首先要搞清楚的是,到底是哪个进程正在泄漏句柄。
现在,我们编译上述程序,生成a.out,然后运行,还说什么呢?各种linux命令,来搞个组合拳啊,查出泄漏的进程。
运行a.out后,让它泄漏一会儿,然后看看:
ubuntu@VM-0-15-ubuntu:~$ lsof -n|awk '{print $2}'| sort | uniq -c | sort -nr | head116 1175104 1343352 978648 1345444 99440 133140 113035 820032 138532 13485ubuntu@VM-0-15-ubuntu:~$ lsof -n|awk '{print $2}'| sort | uniq -c | sort -nr | head116 1175104 1343354 978648 1345444 99440 133140 113035 820032 138532 13485ubuntu@VM-0-15-ubuntu:~$ lsof -n|awk '{print $2}'| sort | uniq -c | sort -nr | head116 1175104 1343363 978648 1345444 99440 133140 113035 820032 138532 13485ubuntu@VM-0-15-ubuntu:~$
看到没,这个组合命令,就是统计进程打开句柄数的,然后,你看,有个进程打开句柄的数量一直在上升,显然就是进程9786了,我们进一步看看究竟是何方妖怪:
ubuntu@VM-0-15-ubuntu:~$ ps -aux | grep 9786ubuntu 9786 0.0 0.0 4216 776 pts/0 S+ 20:07 0:00 ./a.outubuntu 10402 0.0 0.1 13228 1084 pts/1 S+ 20:10 0:00 grep 9786ubuntu@VM-0-15-ubuntu:~$
快看,找出了是a.out进程,感觉快要成功了。那么,我们看看这个进程在打开哪些句柄,如下:
ubuntu@VM-0-15-ubuntu:~$ ll /proc/9786/fdtotal 0lrwx------ 1 ubuntu ubuntu 64 Mar 30 20:07 0 -> /dev/pts/0lrwx------ 1 ubuntu ubuntu 64 Mar 30 20:07 1 -> /dev/pts/0lr-x------ 1 ubuntu ubuntu 64 Mar 30 20:07 10 -> /dev/urandomlr-x------ 1 ubuntu ubuntu 64 Mar 30 20:12 100 -> /dev/urandomlr-x------ 1 ubuntu ubuntu 64 Mar 30 20:12 101 -> /dev/urandomlr-x------ 1 ubuntu ubuntu 64 Mar 30 20:12 102 -> /dev/urandomlr-x------ 1 ubuntu ubuntu 64 Mar 30 20:12 103 -> /dev/urandomlr-x------ 1 ubuntu ubuntu 64 Mar 30 20:12 104 -> /dev/urandom
从这里,就基本知道进程在打开/dev/urandom了。于是,直接在a.out进程对应的代码中搜索一下,就知道代码的位置了,然后就知道句柄泄漏的地方了。
可是,有的朋友还不放心,想知道a.out进程到底在干啥,那也可以,strace命令搞起,直接来看进程在做什么,如下:
ubuntu@VM-0-15-ubuntu:~$ sudo strace -p 9786strace: Process 9786 attachedrestart_syscall(<... resuming interrupted nanosleep ...>) = 0open("/dev/urandom", O_RDONLY) = 331read(331, "\2203\263\244", 4) = 4nanosleep({1, 0}, 0x7fff31962d30) = 0open("/dev/urandom", O_RDONLY) = 332read(332, "\20S\367 ", 4) = 4nanosleep({1, 0}, 0x7fff31962d30) = 0open("/dev/urandom", O_RDONLY) = 333read(333, "bE\351\267", 4) = 4nanosleep({1, 0}, 0x7fff31962d30) = 0open("/dev/urandom", O_RDONLY) = 334read(334, "\265\16\2273", 4) = 4
这下就完全清楚了,原来,进程在执行:
open("/dev/urandom", O_RDONLY)
这回更清楚了,所以,还说什么呢?直接去代码中搜索吧,然后找到句柄泄漏的地方,然后就发现,原程序中,没有close(fd)的操作。So nice.
四. 修复验证
从上述分析可知,需要关掉句柄fd, 故修复后的代码为:
#include <stdio.h>#include <unistd.h>#include <fcntl.h>int getRand(){int randNum = 0;int fd = open("/dev/urandom", O_RDONLY);if(-1 == fd){// handle error}read(fd, (char *)&randNum, sizeof(int));close(fd);return randNum;}int main(){while(1){getRand();sleep(1);}}
经用同样的方法验证,再无句柄泄漏,问题搞定。
五. 最后的话
思路和工具,都很重要。在本文中,我们可以回顾一下,是怎样一步一步打开局面的?又是怎么灵活运用各种linux命令工具的?
对于笔试面试而言,八股文刷题要搞,也要注重实战经验积累,不然一问就歇菜。在实际工作中,各种思路和工具,亦不可或缺。
希望有兴趣的朋友实际操作一下,感受一下bug的定位过程,以后笔试、面试和工作中,就有谈资啦。人间四月天,我们下次见。
这篇关于人间四月天,bug无处钻的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!