android sw watchdog and How to Debug

2024-04-12 16:08
文章标签 debug android watchdog sw

本文主要是介绍android sw watchdog and How to Debug,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Android 平台实现了一个软件的WatchDog来监护SystemServer。SystemServer无疑是Android平台中最重要的进程了,里面运行了整个平台中绝大多数的服务。
在这个进程中运行着近50个线程,任何一个线程死掉都可能导致整个系统死掉。SystemServer退出反而问题不大,因为 init进程会重新启动它,但是它死锁就麻烦了,因为整个系统就没法动了。
在 SystemServer里运行的服务中有很多的服务,具体可以在
framework/base/services/java/com/android/SystemServer中找到
最重要的几个服务应该数ActivityManager、WindowManager和 PowerManager。

软件的WatchDog主要就是确保这几个服务发生死锁之后,退出SystemServer进程,让init进程重启它,让系统回到可用状态。


如何在service中添加watchDog?


以WindowManagerServeice为例, 


首先在构造函数中把自身加入到watchdog monitor服务中:


private WindowManagerService(Context context, PowerManagerService pm,
            boolean haveInputMethods) {
.............
 // Add ourself to the Watchdog monitors.
  Watchdog.getInstance().addMonitor(this);


}


然后每个被监护的Service必须实现Watchdog.Monitor接口,这个接口只要实现一个函数monitor,这个函数实现非常简单:


// Called by the heartbeat to ensure locks are not held indefnitely (for deadlock detection).
    public void monitor() {
        synchronized (mWindowMap) { }
        synchronized (mKeyguardTokenWatcher) { }
    }
 它去锁一下对象,什么也不做,然后就返回。如果对象没有死锁,这个过程就会很顺利。如果对象死锁了,这个函数就会挂在这里。


WatchDog如何工作?



在WatchDog启动之后,开始跑run函数。该函数内部为一个无限循环。
public void run() {
        boolean waitedHalf = false;
        while (true) {
            mCompleted = false;
            mHandler.sendEmptyMessage(MONITOR);------发送MESSAGE由HeartbeatHandler处理监控的各个对象的状态
            ...
            while (timeout > 0 && !mForceKillSystem) {
                    try {
                        wait(timeout); ----等待HeartbeatHandler处理结果
                        } catch (InterruptedException e) {
                    }
                    timeout = TIME_TO_WAIT - (SystemClock.uptimeMillis() - start);
                    //TIME_TO_WAIT的默认时间为30s。此为第一次等待时间,WatchDog判断对象是否死锁的最长处理时间为1Min。
                }
            
                
        }
}
一开始就会发送一个MONITOR的Message,由HeartbeatHandler负责接收并处理。同时会等待30秒,等待HeartbeatHandler的处理结果。然后才会进行下一步动作。
在HeartbeatHandler中将会作如下处理:
public void handleMessage(Message msg) {
            switch (msg.what) {
                case MONITOR: {
                ...
                final int size = mMonitors.size();
                    for (int i = 0 ; i < size ; i++) {
                        mCurrentMonitor = mMonitors.get(i);
                        mCurrentMonitor.monitor();
                    }//依次去调用监护对象的monitor接口,实现对其的监护。
                 synchronized (Watchdog.this) {
                        mCompleted = true;
                        mCurrentMonitor = null;
                    }//如果监护的对象都正常,则会很快运行到这里,并对mCompleted赋值为true,表示对象正常返回。mCompleted值初始为false。
    ...}
  }
}




同时在run函数中:if (mCompleted && !mForceKillSystem) {
                    // The monitors have returned.
                    waitedHalf = false;
                    continue;
                   }//如果所有对象在30s内能够返回,则会得到mCompleted = true;则本次监护就结束,返回继续下一轮监护。



如果在30s内,monitor对象未能返回,mCompleted 值即为false,则会运行到run方法中该语句:


if (!waitedHalf) {
                    // We've waited half the deadlock-detection interval.  Pull a stack
                    // trace and wait another half.
                    ArrayList<Integer> pids = new ArrayList<Integer>();
                    pids.add(Process.myPid());
                    ActivityManagerService.dumpStackTraces(true, pids, null, null);.....dump出trace文件,将有助于我们对watchdog问题的解决
                    waitedHalf = true;
                    continue;
                }


然后跳出该循环,继续一轮循环就将会走到run方法如下语句,非死锁是不会走到的:


// If we got here, that means that the system is most likely hung.


            final String name = (mCurrentMonitor != null) ?
                    mCurrentMonitor.getClass().getName() : "null";
if (!Debug.isDebuggerConnected()) {
                if (Build.TYPE.equals("eng") || Build.TYPE.equals("userdebug")) {
                    Slog.w(TAG, "*** WATCHDOG KILLING THE SYSTEM: " + name);...............发生watchdog的重要LOG


                    // Give some extra time to make sure CrashMonitorService reacts to
                    // the dropbox entry before the crash
                    SystemClock.sleep(2000);


                    forceCrashDump();
                } else {
                    Slog.w(TAG, "*** WATCHDOG KILLING SYSTEM PROCESS: " + name);
                    Process.killProcess(Process.myPid());
                    System.exit(10);
                }



watchdog 的类型:



1:android.server.ServerThread被block,LOG如下:  

02:06:22.571 W/Watchdog( 307): *** WATCHDOG KILLING THE SYSTEM: null


2:诸如windowManagerService ,activityManagerService等死锁,LOG如下:
02:06:22.571 W/Watchdog( 307): *** WATCHDOG KILLING THE SYSTEM: activityManagerService


如何DEBUG watchdog?


第一种类型的watchdog,我们要首先看trace.txt中serverThread的调用栈. 为什么呢?
因为system server启动服务 要分两个过程, 一个是init1()和 init2(),
前者是启动native service, 比如:surfaceFlinger, AudioFlinger...
后者就是启动android services, 比如: activityManager, WindowManager...
而启动android services是在serverThread中进行,代码如下:


public static final void init2() {
        Slog.i(TAG, "Entered the Android system server!");
        Thread thr = new ServerThread();
        thr.setName("android.server.ServerThread");
        thr.start();
    }
其次,如果遇到调用了native的代码,就可以用gdb或者crash继续debug.


第二种类型 看trace.txt中对应死锁进程的调用栈。

这篇关于android sw watchdog and How to Debug的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/897603

相关文章

Android NDK版本迭代与FFmpeg交叉编译完全指南

《AndroidNDK版本迭代与FFmpeg交叉编译完全指南》在Android开发中,使用NDK进行原生代码开发是一项常见需求,特别是当我们需要集成FFmpeg这样的多媒体处理库时,本文将深入分析A... 目录一、android NDK版本迭代分界线二、FFmpeg交叉编译关键注意事项三、完整编译脚本示例四

Android与iOS设备MAC地址生成原理及Java实现详解

《Android与iOS设备MAC地址生成原理及Java实现详解》在无线网络通信中,MAC(MediaAccessControl)地址是设备的唯一网络标识符,本文主要介绍了Android与iOS设备M... 目录引言1. MAC地址基础1.1 MAC地址的组成1.2 MAC地址的分类2. android与I

Android 实现一个隐私弹窗功能

《Android实现一个隐私弹窗功能》:本文主要介绍Android实现一个隐私弹窗功能,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 效果图如下:1. 设置同意、退出、点击用户协议、点击隐私协议的函数参数2. 《用户协议》、《隐私政策》设置成可点击的,且颜色要区分出来res/l

Android实现一键录屏功能(附源码)

《Android实现一键录屏功能(附源码)》在Android5.0及以上版本,系统提供了MediaProjectionAPI,允许应用在用户授权下录制屏幕内容并输出到视频文件,所以本文将基于此实现一个... 目录一、项目介绍二、相关技术与原理三、系统权限与用户授权四、项目架构与流程五、环境配置与依赖六、完整

Android 12解决push framework.jar无法开机的方法小结

《Android12解决pushframework.jar无法开机的方法小结》:本文主要介绍在Android12中解决pushframework.jar无法开机的方法,包括编译指令、框架层和s... 目录1. android 编译指令1.1 framework层的编译指令1.2 替换framework.ja

Android开发环境配置避坑指南

《Android开发环境配置避坑指南》本文主要介绍了Android开发环境配置过程中遇到的问题及解决方案,包括VPN注意事项、工具版本统一、Gerrit邮箱配置、Git拉取和提交代码、MergevsR... 目录网络环境:VPN 注意事项工具版本统一:android Studio & JDKGerrit的邮

Android实现定时任务的几种方式汇总(附源码)

《Android实现定时任务的几种方式汇总(附源码)》在Android应用中,定时任务(ScheduledTask)的需求几乎无处不在:从定时刷新数据、定时备份、定时推送通知,到夜间静默下载、循环执行... 目录一、项目介绍1. 背景与意义二、相关基础知识与系统约束三、方案一:Handler.postDel

Android使用ImageView.ScaleType实现图片的缩放与裁剪功能

《Android使用ImageView.ScaleType实现图片的缩放与裁剪功能》ImageView是最常用的控件之一,它用于展示各种类型的图片,为了能够根据需求调整图片的显示效果,Android提... 目录什么是 ImageView.ScaleType?FIT_XYFIT_STARTFIT_CENTE

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

Android实现两台手机屏幕共享和远程控制功能

《Android实现两台手机屏幕共享和远程控制功能》在远程协助、在线教学、技术支持等多种场景下,实时获得另一部移动设备的屏幕画面,并对其进行操作,具有极高的应用价值,本项目旨在实现两台Android手... 目录一、项目概述二、相关知识2.1 MediaProjection API2.2 Socket 网络