共计 1483 个字符,预计需要花费 4 分钟才能阅读完成。
中午 11 点半收到短信报警,web 服务器 cpu 利用率较高。是 Java 进程占用的,内部系统访问量很少(300 不到)因此服务器出现高的 cpu 利用率很不正常,日志方面并没太多错误记录,杀掉重启过一会 cpu 利用率又飙升了,能达到 500%
像是陷入某种死循环,有人提到在 git 上面看到最近新加的一段代码是个不严谨的循环语句,于是搜找那段语句,是个删除文件的语句,类似如:
if (file.exist())
while (file.delete())
xxx
xxx
fi
应该是它了,那么为何无法删除呢?
1.
文件不存在,但代码判断过了,
2.
权限问题,如果账号没权限的话,那就会陷入这个死循环中。
再联想——一周前调试的时候用 root 启动的 tomcat,后来自动部署的时候脚本未能杀掉原有进程,只是再开了个新的,于是就出现了两个 tomcat,其中一个以 root 身份运行过且调用过对应的文件,于是即使后来 root 的那个进程被杀掉,也产生了实质的影响——其身份运行的进程占用的文件目录权限产生变动。(变成了 root),所以别的账号无法删除,进而陷入死循环。
解决:
1. 更改代码
2. 改回相关文件目录的原有属性
两个坑 :
代码的死循环不够严谨
坚决不应该以 root 身份启动有固定用户的进程(属于误操作,应谨慎)
其他思路 :
1. 查日志,其实能看到很多删除失败的记录,这个应该留意,才能更好找到原因
2. 利用 jstat 分析 jvm 状态,jstat -gcutil pid(vmid) 间隔(毫秒)次数,如:
[root@service ~]# jstat -gcutil 14503 1000 4
S0 S1 E O P YGC YGCT FGC FGCT GCT
43.75 0.00 0.00 76.49 85.93 148 17.511 1 0.618 18.129
43.75 0.00 0.00 76.49 85.93 148 17.511 1 0.618 18.129
43.75 0.00 0.00 76.49 85.93 148 17.511 1 0.618 18.129
43.75 0.00 0.00 76.49 85.93 148 17.511 1 0.618 18.129
这个反映的是 gc 统计信息,详情参考 jstat 的使用。
在 Ubuntu 12.04 LTS 上通过 Tomcat 部署 Solr 4 http://www.linuxidc.com/Linux/2012-09/71158.htm
Ubuntu 下部署 Solr(4.4)到 Tomcat(7.0.53) http://www.linuxidc.com/Linux/2014-05/101443.htm
Linux 下 Apache 与多个 Tomcat 集群负载均衡 http://www.linuxidc.com/Linux/2012-01/51731.htm
Nginx Tomcat 集群负载均衡解决笔记 http://www.linuxidc.com/Linux/2013-07/86827.htm
实例详解 Tomcat 组件安装 +Nginx 反向代理 Tomcat+Apache 使用 mod_jk 和 mod_proxy 反向代理和负载均衡 http://www.linuxidc.com/Linux/2013-06/85290.htm
Apache+Tomcat 环境搭建(JK 部署过程)http://www.linuxidc.com/Linux/2012-11/74474.htm
Tomcat 的详细介绍 :请点这里
Tomcat 的下载地址 :请点这里