概述
最近发现环境中的vRops经常性的宕服务,访问vRops的时候提示 _Unable to connect to platform services.
如下图所示,使得平台无法正常运行,今天抽点时间来看看到底是什么原因引起的故障,记录其过程用于分享。
磁盘使用量
一般来说,如果硬盘满了,也会导致Linux的某些服务无法启动,所以我先排查了下磁盘使用情况,使用 df -Th
查看
看起来并未存在磁盘被撑爆的情况。
分析日志
手动进入到平台日志路径 cd /var/log/apache2
使用 vi access.log
查看日志详情后发现大量GET请求,均是来自一个地址为 10.XX.XX.49 的IP
从日志记录来看,有超过至少1000000个请求从一个IP地址爆发。它看起来确实像是一个攻击,虽然只是来自一个内部IP地址。
使用nmap对该IP进行简单分析后发现其开放了443端口,证明其可能是一个web服务,通过访问后发现是一个漏扫平台。
建议
我的建议是让安全组把vRops的地址添加在白名单上,避免因大量的扫描变成了攻击行为。
解决
重新启动所有vRops节点上的Web服务,可以通过向每个节点发出这个命令
service vmware-vcops-web restart
或者直接重启vRops服务器,就可以恢复正常了。