最近工作过程中,发现好几台服务器出现僵死进程(如图)。
   
 
    用下面的命令找出僵死进程
    ps  -A -o stat,ppid,pid,cmd | grep -e '^[Zz]'
    命令注解:
   -A 参数列出所有进程
   -o 自定义输出字段 我们设定显示字段为 stat(状态), ppid(进程父id), pid(进程id),cmd(命令)这四个参数
  
   -C 用来指定所执行的命令名称,你这里也就是让ps仅仅显示php命令所产生的进程的信息
     ps -C java -o lstart,pid,cmd【不过貌似打印的不全~】
        ps -A -o lstart,pid,args |grep java【这个可以的~】 
   因为状态为 z或者Z 的进程为僵尸进程,所以我们使用grep抓取stat状态为zZ进程   运行结果参考如下   
    这里一共出现了9个僵死进程,我们需要把它们都干掉,执行下面的命令
    kill  -9 8310
    这时你再执行查找僵死的进程,发现所有僵死进程都没了.
    补充:
    最近又遇到了个问题,一台服务器上产生了100多少僵死进程,而且每一僵死进程的父进程都不一样,如果用上面的方法,一条一条的杀,那还不得累死我啊。
   那么就应该想一条简单的命令,直接查找僵死进程,然后将父进程杀死~
     ps  -A -o stat,ppid,pid,cmd | grep -e '^[Zz]' | awk '{print $2}' | xargs kill -9
----------------------------------------------------------------------------------------------------------
不能随便杀父进程.
ps -aux 先找到僵死进程ID,如5031
lsof -p 5031看看僵死在什么地方,一般地讲死锁在某个文件或关联在某个进程
去除死锁文件或杀死相关联进程先
-----------------------------------------------------------------------------------------------------------
 
用ps和grep命令寻找僵尸进程
 ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]'
 命令注解:
 -A 参数列出所有进程
 -o 自定义输出字段 我们设定显示字段为 stat(状态), ppid(进程父id), pid(进程id),cmd(命令)这四个参数
 因为状态为 z或者Z的进程为僵尸进程,所以我们使用grep抓取stat状态为zZ进程
 运行结果参考如下
 Z 12334 12339 /path/cmd
 这时,我们可以使用 kill -HUP 12339来杀掉这个僵尸进程
 运行后,可以再次运行ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]'来确认是否已经将僵尸进程杀死
 如果kill 子进程的无效,可以尝试kill 其父进程来解决问题,例如上面例子父进程pid是 12334,那么我们就运行
 kill -HUP 12334
 来解决问题