手机重启问题快速分析定位指南(手机重启后会有什么后果)
nanshan 2024-10-10 07:23 76 浏览 0 评论
阅读五分钟,每日十点,和您一起终身学习,这里是程序员Android
本篇文章主要介绍 Android 开发中的部分知识点,通过阅读本篇文章,您将收获以下内容:
一、 AEE 系统机制简介
二、AEE 重启异常分类介绍
三、重启问题快速分析归类指南之 Kernel Exception
四、重启问题快速分析归类指南之 Watchdog Timeout
五、重启问题快速分析归类指南之 Hardware Reboot
一、 AEE 系统机制简介
1.MTK AEE 系统
AEE 是 MTK平台自研,用于侦测Android手机系统异常重启的一套系统机制,当AEE系统 侦测到异常后会生成 db 文件.
2.db 文件存储路径:
/data/aee_exp
或
data/vendor/mtklog/aee_exp
Android 8.0 之后由于系统安全机制导致db无法保存到MTK log中
user版本 中AEE仅仅侦测引起的重启故障,例如:KE/system server , NE/system server ,JE/SWT 。
3.AEE 异常侦测机制
AP层重启时候,AEE系统会在db生成后会发生am 广播(com.mediatek.log2server.EXCEPTION_HAPPEND),但系统重启类异常(KE / HW reboot/ HWT)不会发送广播,因为AMS还无法使用。
另外,AEE会开机后判断异常重启,当异常重启后会设置debug.mtk.aee.db的 property,由于不是persist的,关机就丢失,因此只有异常重启后才有这个property存在。
因此,我们可以通过检查debug.mtk.aee.db的方法来获取系统是否发生了异常重启。
4.重启异常 debug.mtk.aee.db 读取方法
- 1.java 层:
android.os.SystemProperties.get("debug.mtk.aee.db", "")
- native层:
int property_get(const char* key, char* value, const char* def);
- 通过adb shell
adb shell getprop debug.mtk.aee.db
二、AEE 重启异常分类介绍
AEE 重启异常分类 如下:
- 1.KE
- 2.HWT
- 3.HWT Reboot
- 4.NE
- 5.JE
- 6.SWT
上面的类型可能会变化,具体请参考kernel代码:kernel-4.4/drivers/misc/mediatek/include/mt-plat/aee.h里的AE_EXP_CLASS。
1.AEE 输出内容
当有异常发生时候,会生成dbg文件,通过特殊的工具可以解压这个dbg文件。
关注微和谐信公众号: 程序员Android 回复 aee 即可获取解析重启db log的工具。
2.dbg文件
db.fatal.00.JE.dbg.DEC 这个文件夹使用aee_extract.exe抽取aee db压缩文件生成的,这个工具在gat-win32-3\prebuilt\spsstools\bin\aee_extract.exe可以找到。
db 文件解压后部分内容
3.ZZ_INTERNAL 简介
ZZ_INTERNAL 包含重启的简单信息,如需获取更多信息,需要解压dbg文件。
ZZ_INTERNAL
4.KE、JE、NE、SWT分类
这种类型最好分类,因为有调用栈,有进程名,分类可以做的很细致。
KE db如果存在SYSTRACKER_DUMP文件,表示存在bus hang,也可以单独列出来。
5. HWT分类
不能以当前CPU的调用栈分类。因为最后调用BUG的CPU是随机的。同样的调用栈,可能是不同的root cause,应该按卡住的CPU的调用栈进行分类
从SYS_LAST_KMSG看Kick bit、check bit得出无喂狗CPU,可能存在多个或没有。
从SYS_LAST_KMSG提取无喂狗CPU的调用栈
6.HW reboot分类
可以通过__exp_main.txt里的Exception Type分类
- HW reboot
- Thermal reboot
- SPM reboot
- ATF crash
Type为HW reboot可以进一步细分( 按SYS_REBOOT_REASON里字段信息 )
- last pc,看各个Core停止的位置
- deepidle/sodi3/sodi/spm_suspend,如果非0表示当时处于low power场景
- Android Dropbox
三、重启问题快速分析归类指南之 Kernel Exception
当手机重启时候,Kernel重启异常信息会保存在手机/data/aee_exp或 data/vendor/mtklog/aee_exp 中的db文件中。
Kernel Exception重启分类如下:
- 1.Kernel Panic
- 2.Watchdog Timeout
- 3.Hardware Reboot
1.Kernel Panic
即Linux kernel发生了无法修复的错误,从而导致 panic。通过查看 SYS_KERNEL_LOG 的内容.
kernel Panic 进一步可以分为如下几类:
- 普通的data abort
- oom主动触发的panic
- undefined instruction,未定义指令异常
- bad mode异常,即PC处于一个无效的virtual address
1. 普通的data abort
从SYS_KERNEL_LOG中,可以检索到如下关键信息:
Unable to handle kernel NULL pointer dereference at virtual address XXXXXXXX
如上的XXXXXXXX代表某个非法地址。这种类型是最多的。
2. oom 主动触发的panic
从SYS_KERNEL_LOG中,可以检索到如下关键信息:
Kernel panic - not syncing: Out of memory and no killable processes...
此种类型的panic一般是某个process或者APK耗尽了memory资源,从而kernel主动触发的panic重启。
3.undefined instruction,未定义指令异常
从SYS_KERNEL_LOG中,可以检索到如下关键信息:
Internal error: Oops - undefined instruction
此类异常较为少见,可能是CPU/DRAM 不稳定或者受干扰导致的问题。
4.bad mode异常,即PC处于一个无效的virtual address
从SYS_KERNEL_LOG中,可以检索到如下关键信息:
Bad mode in Synchronous Abort handler detected [14820.652408]-(1)[682:VSyncThread_0][<ffffffc000088f90>] bad_mode+0x78/0xb0
此类异常较为少见,可能的原因是stack错乱,或者未注册回调函数引起。
四、重启问题快速分析归类指南之 Watchdog Timeout
看门狗超时有两种
- 1.底层看门狗超时HWT
- 2.上层hang_detect 触发看门狗超时SWT
1.底层看门狗超时HWT
从SYS_KERNEL_LOG中,可以检索如下关键信息
- arm64 平台
PC is at aee_wdt_atf_info+0x4c8/0x6dc LR is at aee_wdt_atf_info+0x4c0/0x6dc
- arm32 平台
PC is at aee_wdt_irq_info+0x104/0x12c LR is at aee_wdt_irq_info+0x104/0x12c
此类异常较为常见,多见于底层频繁irq/bus卡死,导致kicker无法被schedule,从而引起watch dog触发中断,引导系统进入FIQ处理流程,最终call到BUG触发重启。
2. 上层hang_detect 触发看门狗超时SWT
从SYS_KERNEL_LOG中,可以检索( 关键字 :hang_detect)
[ 2131.086562] (0)[77:hang_detect][Hang_Detect] we should triger HWT ... ... [ 2180.467416]-(0)[77:hang_detect]PC is at aee_wdt_irq_info+0x154/0x170 [ 2180.467426]-(0)[77:hang_detect]LR is at aee_wdt_irq_info+0x154/0x170 ...
此异常类型较为常见,多见于GPU/SD卡/eMMC无法满足surfacelinger/system_server的通讯需求,从而导致上层卡死,进而主动触发看门狗超时重启。
五、重启问题快速分析归类指南之 Hardware Reboot
Hardware reboot是watch dog直接发出reset信号,导致整个系统重启;在重启之前,并没有触发任何异常处理流程。
一般情况下,hardware reboot对应的db不会有SYS_KERNEL_LOG 可以排查,只能从SYS_LAST_KMSG获知异常之前kernel的动作,以及从SYS_REBOOT_REASON获知异常时的CPU寄存器值和其它参数。
从ZZ_INTERNAL 档案,可以知道发生了hardware reboot
例如 如下部分log:
Hardware Reboot,0,0,99,/data/core/,0,,HW_REBOOT,Fri Jul 3 14:31:53 CST 2015,1
相关推荐
- 服务器数据恢复—Raid5数据灾难不用愁,Raid5数据恢复原理了解下
-
Raid5数据恢复算法原理:分布式奇偶校验的独立磁盘结构(被称之为raid5)的数据恢复有一个“奇偶校验”的概念。可以简单的理解为二进制运算中的“异或运算”,通常使用的标识是xor。运算规则:若二者值...
- 服务器数据恢复—多次异常断电导致服务器raid不可用的数据恢复
-
服务器数据恢复环境&故障:由于机房多次断电导致一台服务器中raid阵列信息丢失。该阵列中存放的是文档,上层安装的是Windowsserver操作系统,没有配置ups。因为服务器异常断电重启后,rai...
- 服务器数据恢复-V7000存储更换磁盘数据同步失败的数据恢复案例
-
服务器数据恢复环境:P740+AIX+Sybase+V7000存储,存储阵列柜上共12块SAS机械硬盘(其中一块为热备盘)。服务器故障:存储阵列柜中有磁盘出现故障,工作人员发现后更换磁盘,新更换的磁盘...
- 「服务器数据恢复」重装系统导致XFS文件系统分区丢失的数据恢复
-
服务器数据恢复环境:DellPowerVault系列磁盘柜;用RAID卡创建的一组RAID5;分配一个LUN。服务器故障:在Linux系统层面对LUN进行分区,划分sdc1和sdc2两个分区。将sd...
- 服务器数据恢复-ESXi虚拟机被误删的数据恢复案例
-
服务器数据恢复环境:一台服务器安装的ESXi虚拟化系统,该虚拟化系统连接了多个LUN,其中一个LUN上运行了数台虚拟机,虚拟机安装WindowsServer操作系统。服务器故障&分析:管理员因误操作...
- 「服务器数据恢复」Raid5阵列两块硬盘亮黄灯掉线的数据恢复案例
-
服务器数据恢复环境:HPStorageWorks某型号存储;虚拟化平台为vmwareexsi;10块磁盘组成raid5(有1块热备盘)。服务器故障:raid5阵列中两块硬盘指示灯变黄掉线,无法读取...
- 服务器数据恢复—基于oracle数据库的SAP数据恢复案例
-
服务器存储数据恢复环境:某品牌服务器存储中有一组由6块SAS硬盘组建的RAID5阵列,其中有1块硬盘作为热备盘使用。上层划分若干lun,存放Oracle数据库数据。服务器存储故障&分析:该RAID5阵...
- 「服务器虚拟化数据恢复」Xen Server环境下数据库数据恢复案例
-
服务器虚拟化数据恢复环境:Dell某型号服务器;数块STAT硬盘通过raid卡组建的RAID10;XenServer服务器虚拟化系统;故障虚拟机操作系统:WindowsServer,部署Web服务...
- 服务器数据恢复—RAID故障导致oracle无法启动的数据恢复案例
-
服务器数据恢复环境:某品牌服务器中有一组由4块SAS磁盘做的RAID5磁盘阵列。该服务器操作系统为windowsserver,运行了一个单节点Oracle,数据存储为文件系统,无归档。该oracle...
- 服务器数据恢复—服务器磁盘阵列常见故障表现&解决方案
-
RAID(磁盘阵列)是一种将多块物理硬盘整合成一个虚拟存储的技术,raid模块相当于一个存储管理的中间层,上层接收并执行操作系统及文件系统的数据读写指令,下层管理数据在各个物理硬盘上的存储及读写。相对...
- 「服务器数据恢复」IBM某型号服务器RAID5磁盘阵列数据恢复案例
-
服务器数据恢复环境:IBM某型号服务器;5块SAS硬盘组成RAID5磁盘阵列;存储划分为1个LUN和3个分区:第一个分区存放windowsserver系统,第二个分区存放SQLServer数据库,...
- 服务器数据恢复—Zfs文件系统下误删除文件如何恢复数据?
-
服务器故障:一台zfs文件系统服务器,管理员误操作删除服务器上的数据。服务器数据恢复过程:1、将故障服务器所有磁盘编号后取出,硬件工程师检测所有硬盘后没有发现有磁盘存在硬件故障。以只读方式将全部磁盘做...
- 服务器数据恢复—Linux+raid5服务器数据恢复案例
-
服务器数据恢复环境:某品牌linux操作系统服务器,服务器中有4块SAS接口硬盘组建一组raid5阵列。服务器中存放的数据有数据库、办公文档、代码文件等。服务器故障&检测:服务器在运行过程中突然瘫痪,...
- 服务器数据恢复—Sql Server数据库数据恢复案例
-
服务器数据恢复环境:一台安装windowsserver操作系统的服务器。一组由8块硬盘组建的RAID5,划分LUN供这台服务器使用。在windows服务器内装有SqlServer数据库。存储空间LU...
- 服务器数据恢复—阿里云ECS网站服务器数据恢复案例
-
云服务器数据恢复环境:阿里云ECS网站服务器,linux操作系统+mysql数据库。云服务器故障:在执行数据库版本更新测试时,在生产库误执行了本来应该在测试库执行的sql脚本,导致生产库部分表被tru...
你 发表评论:
欢迎- 一周热门
-
-
爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复
-
如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号
-
[常用工具] OpenCV_contrib库在windows下编译使用指南
-
WindowsServer2022|配置NTP服务器的命令
-
Ubuntu系统Daphne + Nginx + supervisor部署Django项目
-
WIN11 安装配置 linux 子系统 Ubuntu 图形界面 桌面系统
-
解决Linux终端中“-bash: nano: command not found”问题
-
NBA 2K25虚拟内存不足/爆内存/内存占用100% 一文速解
-
Linux 中的文件描述符是什么?(linux 打开文件表 文件描述符)
-
K3s禁用Service Load Balancer,解决获取浏览器IP不正确问题
-
- 最近发表
-
- 服务器数据恢复—Raid5数据灾难不用愁,Raid5数据恢复原理了解下
- 服务器数据恢复—多次异常断电导致服务器raid不可用的数据恢复
- 服务器数据恢复-V7000存储更换磁盘数据同步失败的数据恢复案例
- 「服务器数据恢复」重装系统导致XFS文件系统分区丢失的数据恢复
- 服务器数据恢复-ESXi虚拟机被误删的数据恢复案例
- 「服务器数据恢复」Raid5阵列两块硬盘亮黄灯掉线的数据恢复案例
- 服务器数据恢复—基于oracle数据库的SAP数据恢复案例
- 「服务器虚拟化数据恢复」Xen Server环境下数据库数据恢复案例
- 服务器数据恢复—RAID故障导致oracle无法启动的数据恢复案例
- 服务器数据恢复—服务器磁盘阵列常见故障表现&解决方案
- 标签列表
-
- linux 查询端口号 (58)
- docker映射容器目录到宿主机 (66)
- 杀端口 (60)
- yum更换阿里源 (62)
- internet explorer 增强的安全配置已启用 (65)
- linux自动挂载 (56)
- 禁用selinux (55)
- sysv-rc-conf (69)
- ubuntu防火墙状态查看 (64)
- windows server 2022激活密钥 (56)
- 无法与服务器建立安全连接是什么意思 (74)
- 443/80端口被占用怎么解决 (56)
- ping无法访问目标主机怎么解决 (58)
- fdatasync (59)
- 405 not allowed (56)
- 免备案虚拟主机zxhost (55)
- linux根据pid查看进程 (60)
- dhcp工具 (62)
- mysql 1045 (57)
- 宝塔远程工具 (56)
- ssh服务器拒绝了密码 请再试一次 (56)
- ubuntu卸载docker (56)
- linux查看nginx状态 (63)
- tomcat 乱码 (76)
- 2008r2激活序列号 (65)