Sniffer Pro帮网管准确的定位网络故障
P2P软件谋杀网络连接共享
故障现象
某局域网内有1200个计算机用户,采用两台ISA Server群集实现Internet连接共享。服务器硬件配置均为Intel Xeon 3.0 CPU、2GB内存、SCSI 72GB硬盘。然而,最近几天Internet接入速度变得非常缓慢,浏览普通网页都要等待很长一段时间,甚至还经常提示超时连接。
故障分析
查看ISA报告后发现,许多用户的上下行流量都很大。仅流量排名前15位的用户,每天的总流量就高达38.22GB,其中,输入流量32.41GB,输出流量5.81GB。而前3位用户的总输入流量为3.05GB,总输出流量为2.85GB。
由于代理服务器只为普通网络客户端提供Internet接入服务,因此,网络流量不应该如此之大,这说明在局域网中极可能有大量用户在使用P2P软件。
使用Sniffer Pro监控代理服务器VLAN时,也发现大量用户的并发连接数量很大,如图6所示。

故障解决
在核心交换机上设置IP访问列表,将其应用于代理服务器群集所在的VLAN,并禁用一些蠕虫病毒的端口和常见P2P软件的端口,IP访问列表内容如表1所示。

开始的一段时间,Internet的访问速度明显地得到了提升。然而,过了一周左右时间后,Internet连接速率又慢慢降了下来。使用Sniffer Pro监测时,又发现了大量的并发连接。原来许多P2P用户修改了默认的TCP端口,因此,原来的IP访问列表已经不起什么作用了,需要重新修改IP访问列表。于是,这次只开放一些常见的和必需的Internet端口,而禁用其他所有端口,修改后的IP访问列表内容如表2所示。

此后,Internet连接就一直保持正常了。
交换机CPU占用率高达99%
故障现象
网络访问和Internet连接速率明显变慢,计算机的反应也较为迟缓。
故障分析
登录到核心交换机Cisco Catalyst 4006,使用“1show processes cpu”命令查看CPU资源,从系统输出的信息可以看到(如图7所示),CPU在5秒、1分钟、5分钟内的占用率高达99%、99%和98%。其中,Cat4k Mgmt LoPri进程的CPU占用率分别为82.63%、82.25%和80.68%。这里,我们先简要说明一下Cat4k Mgmt HiPri和Cat4k Mgmt LoPri两个进程的原理。当某个进程占用CPU时间没有超过规定的CPU分配时间时,Cat4k Mgmt HiPri进程便会接管这个进程;而当Cat4k平台上某项进程占用CPU超出了应分配的CPU时间时,Cat4k Mgmt LoPri进程会接管这项进程,使其他进程能够得到CPU时间。

从故障的现状可以看出,Cat4k Mgmt LoPri进程的CPU占用率超过了80%。因此基本可以断定是某个进程的CPU占用时间大大超过了应该分配的时间,Cat4k Mgmt LoPri进程试图接管这一进程,从而导致了Cat4k Mgmt LoPri进程的CPU占用率非常高。依据这一思路,只要找到该进程将其关闭,就能够找出CPU占用率过高的原因并解决这个问题。
故障解决
使用Sniffer Pro查看网络通信情况,我们发现许多计算机同时与网络内部的多台计算机通信(如图8所示)。经进一步查看,发现它们使用的端口均为TCP 135端口,由此预测,可能是蠕虫病毒导致了该故障的发生。

于是,设置IP访问列表阻止TCP 135端口及其他常见蠕虫端口,并将其应用于所有VLAN,最后有效地解决了CPU资源占用率高的问题。


















文章评论
共有 位CH网友发表了评论 查看完整内容