POPPUR爱换
标题:
网络故障排除实例
[打印本页]
作者:
1yanmin1
时间:
2011-5-6 02:55
标题:
网络故障排除实例
在家休假,半夜接到同事电话,反映SAP服务器频繁断线报警,上线一查邮件,果然多台设备报警,均有断线警告。故障现象为:核心交换机上接入的服务器有频繁断流。
故障分析:
由于我是采用SSL VPN拨入那么说明至少网络设备之间的访问是正常的,服务器断流有2个可能:一、交换模块有问题。二、核心交换机引擎工作不正常。
我们这个分部的网络设备均为nortel,核心是8300,双机冗余,同时每台双引擎,单48口全千兆模块。IDF全部nortel二层交换机2550T,多台堆叠。
在ping服务器VLAN 网关时发现网关时通时不通,由于是两台核心交换机共同虚拟网关,出现时通时不通时说明是有一台核心交换机不正常。那么连入核心交换机,经过交换机自带的数据分析,发现有个光口上传数据非常火爆,每秒发送大约900万个包。而CPU占用率一直达到100%,看来应该是遇到了网络风暴。
一路追查,发现风暴来源于某IDF的堆叠上的vlan 15.锁定了风暴来源,接下来的处理就简单了,首先进入堆叠,把VLAN 15的上联口卸载掉,顿时核心交换机的CPU负载降到了7%,一切都恢复了正常。除了VLAN 15内的200个用户,其他应用都恢复在正常。
现在可以着手查找网络风暴的源头了,凡是网络风暴,必定有个特征,就是瞬间会发出大量的请求,消耗掉所有的网络资源,也就是俗称的开销过载。在终端上发送大量的包,反映到交换机上就会是口的IN方向有大量的包,被感染的口应该是接受到大量的包,也就是端口的out方向。于是选中所有端口,把截取时间设置短一些,如5秒,再查看各端口的IN方向就可以分辨出害群之马在何处了!
经过排查,发现了2个口的数据异常,把它们DOWN掉,网络风暴消失,全网恢复正常。打电话通知分部IT人员,去寻找2台网络不通的电脑或者设备,再离线排查风暴是否由于病毒或者网口损坏引起。
经过现场人员的检查,发现是由于机台上电脑未安装防毒软件,导致中毒引起。
nortel的设备性能强大,与cisco的设备性能相比强大不少,可惜不善经营,被Avaya收购后感觉数据业务更是有些萎缩。可用户手中的nortel设备并不少,尤其是在我们半导体制造行业中。因此写出此文,希望能为其他人排除网络故障提供一些简单的思路,其实网络设备不管品牌如何不同,操作如何相异,思路总是大同小异。
作者:
amx004
时间:
2011-5-6 03:03
一知半解的也帮顶了
作者:
1yanmin1
时间:
2011-5-6 03:03
哦补充一点,如果人能够在现场,使用Sniffer抓包,排查起来其实更快捷一些。远程的话,就会麻烦一点。
作者:
hebi88
时间:
2011-5-6 19:45
我还是喜欢玩家用机多些
作者:
太虚公
时间:
2011-5-7 09:20
北电的东西还是不错的 GUI界面好啊 远程起来比较方便
作者:
clawhammer
时间:
2011-5-7 14:25
竟然没有设置广播抑制?
作者:
jojococo
时间:
2011-5-7 17:54
额 兰州 辛苦 还是顶了 以前混过机房 苦逼
作者:
1yanmin1
时间:
2011-5-7 18:41
本帖最后由 1yanmin1 于 2011-5-7 18:46 编辑
回复
clawhammer
的帖子
的确,没有限制广播包数量才导致了这类故障,已经警告了我们分部的IT人员了。
不过,这个故障,其实并非广播风暴引起,因为VLAN不同,这是典型的DOS攻击。
作者:
clawhammer
时间:
2011-5-8 02:34
本帖最后由 clawhammer 于 2011-5-8 02:35 编辑
{lol:]用A类IP的公司一般都不会小
怎么没有集中管理式的杀软,不装不准使用网络嘛
作者:
1yanmin1
时间:
2011-5-8 10:20
有网络版的赛门铁克,只是出问题的机器是属于FAB的设备工程师,他们自己安装系统并不会通知IT部门,甚至连域都不加。这让我感觉到信息安全的巨大漏洞,已经在着手准备推行802.1X认证。以限制住这种小IT行为。我们这种半导体公司没有办法,到处都是不属于IT部门的IT人员。
作者:
glk17
时间:
2011-5-8 10:37
标记
向前辈学习
欢迎光临 POPPUR爱换 (https://we.poppur.com/)
Powered by Discuz! X3.4