网络故障分析报告

网络故障分析报告

现在的网络要比以前复杂许多,在各行各业中,不断的有新的网络应用加入,这对网络性能要求是非常高的。网络性能评估对网络关键应用能否健康运行有重要意义,通过对网络核心设备的处理能力分析,对网络带宽利用率、网络负载的分析,有助于提高网络整体性能和资源的合理分配,为规划、调整网络提供可靠依据。

科来网络分析系统是非常好的流量分析系统,利用他我们可以实际了解当前网络正在发生的具体流量,并且通过科来网络分析系统的专家系统及进一步对数据包的解码分析,我们可以很快的定位网络故障,确认网络带宽的瓶颈,在故障发生前消除网络隐患,这样能给我们日常的网络维护工作带来很大的方便,也是的我们的维护工作处于主动地位,不会再只用接到用户故障投诉后处理故障,这在时间和效率上都有了很大提高。

1.1.            故障描述

20##年7月8日,某公司网络管理人员通过网管软件发现两台核心网络交换机CPU利用率异常,如下:

1. “核心交换机6509_A”的CPU利用率高达90%以上。

2. “核心交换机6509_B”的CPU利用率高达90%以上。

以上问题造成网络延时很高,导致访问内网应用、互联网等速度较慢。

1.          网络拓扑

拓扑图如下:

2.          检测描述

监测软件:科来网络回溯分析系统3.1

样本文件:Colasoft.pkt

采样时间:20##-7-8 21:30

采样时长:7*24

样本说明:核心交换机6509连接部门交换机3550的trunk链路

1.2.            分析内容

1.          基本分析

首先,我们需要检查是什么进程导致设备CPU利用率较高,以提高分析效率。我们分别在两台(A、B)Cisco 6509交换机上执行show process cpu命令,查看各进程CPU占用情况,如下:

==========6509_A============

==========6509_B============

从上图可以看出两台设备占用CPU利用率最高的进程为ARP进程,统计结果如下:

因此,我们推断设备CPU利用率较高是由ARP流量异常导致的,对于分析ARP流量异常,我们需要借助专业的流量分析工具科来网络回溯分析系统3.1。

详细分析

由于用户先前已经部署了科来网络回溯分析系统,并且部署监控点包括核心交换机连接各部门交换机3550的端口,因此可以监控到所有Vlan的流量。

由于在基本分析的时候我们判断故障原因为ARP流量异常造成,因此,我们选择最近时间段的全部流量下载分析即可。下载完成之后,我们定位ARP流量进行详细分析,如下图:

在图中,我们可以看到ARP Request包的数量远远高于ARP Respone包的数量,并且这些ARP Request包大部分是由Mac54:E6:FC:18:98:9D发出来的,现在我们可以直接分析Mac:54:E6:FC:18:98:9D所发出的数据包。如下图:

上图显示,Mac为54:E6:FC:18:98:9D的设备发送的数据包为免费ARP请求数据包,并且发送频率较高(正常情况下,设备不会发送大量发送免费ARP请求)。这种数据包发送到网络当中会导致拥有相同IP的主机不停地产生地址冲突提示。

由于已经找到ARP报文中含有的IP地址,我们通过IP登记记录找到该IP10.168.22.215为一台IBM服务器(Server 2003),我们登陆该服务器查看网卡Mac为00:09:6B:A5:19:C4,并且系统不停地提示IP地址冲突。我们将该服务器网卡禁用之后,核心交换机设备利用率立即回复正常,并且ARP流量也回复正常(通过这个现象可以判断非恶意破坏)。

至此,我们确定ARP流量异常原因为某台设备配置IP地址与一台IBM服务器地址冲突,而此设备在IP冲突的时候为了抢占该IP地址,大量发送免费ARP请求,造成网络产生了ARP广播风暴,最终导致核心设备CPU利用率升高。

1.3.            故障点定位

由于公司网络全部采用的可管理的交换机,因此根据发送ARP Request的源Mac地址54:E6:FC:18:98:9D,我们找到该设备具体接在那个交换机端口。通过在核心交换机执行show mac-address-table | include 54:E6:FC:18:98:9D找到该Mac在某部门的3550交换机上,登陆该交换机我们再次执行该命令,最终找到该Mac所接交换机端口,如下图:

从上图可以看到Mac地址在该部门交换机的F0/25端口上,并且该端口属于Vlan112。

查阅布线图,我们最终找到了该端口所接设备的具体房间。并且找到了Mac为54:E6:FC:18:98:9D的设备为一台Tplink无线路由器,并且其配置了IP地址为10.168.22.215,如下图:

1.          处理方法

通过科来网络回溯分析系统3.1,我们快速定位到触发核心交换机CPU利用率非常高的原因为某部门擅自使用了一台Tplink无线路器,并且该路由器“Wlan口”设置的IP与同网段的一台IBM服务器地址冲突,导致Tplink无线路由器快速发送免费ARP请求(防护机制),最终到导致核心交换机CPU利用率升高。

根据以上分析结果,该部门已停用该Tplink无线路由器,重新申请了公司购买的企业级无线路由器,同时申请了新的IP地址。

2.          处理结果

在停用Tplink无线路由之后,网络已经恢复正常,核心交换机CPU利用率已经恢复正常,网络延时也恢复到局域网延时水平。

1.4.            分析总结

1.          分析结果

本次通过科来网络回溯分析系统3.1,我们快速定位本次故障原因为一台非授权Tplink无线路由器非法接入网络引起。针对分析结果我们及时采取了处理措施,最终将问题解决。

2.          网络优化建议

针对本次故障,我们看到某些网络设备不适合企业用户使用,同时企业需要采取更为严格网络管理措施防范此类故障的再次发生。

网络中部署准入控制,加强网络设备接入的管理

建议用户使用企业级无线路由器或者交换机,以保障企业网络的稳定运行

 

第二篇:网络故障

一、物理类故障

物理故障,一般是指线路或设备出现物理类问题或说成硬件类问题。

(一)线路故障

在日常网络维护中,线路故障的发生率是相当高的,约占发生故障的70%。线路故障通常包括线路损坏及线路受到严重电磁干扰。

排查方法:如果是短距离的范围内,判断网线好坏简单的方法是将该网络线一端从电脑上拔出用测线器测量,因为我们一般上网只用1.2.3.6号线,所以这四根线亮的话就能够正常使用,也就是说到交换机之间的网线是可用的.

(二)端口故障

端口故障通常包括插头松动和端口本身的物理故障。

排查方法:此类故障通常会影响到与其直接相连的其他设备的信号灯。因为信号灯比较直观,所以可以通过信号灯的状态大致判断出故障的发生范围和可能原因。也可以尝试使用其它端口看能否连接正常。这时我们可以拔下插头反复插拔几次.

(三)集线器或路由器故障

集线器或路由器故障在此是指物理损坏,无法工作,导致网络不通。

排查方法:通常最简易的方法是替换排除法,用通信正常的网线和主机来连接集线器(或路由器),如能正常通信,集线器或路由器正常;否则再转换集线器端口排查是端口故障还是集线器(或路由器)的故障;很多时候,集线器(或路由器)的指示灯也能提示其是否有故障,正常情况下对应端口的灯应为绿灯。如若始终不能正常通信,则可认定是集线器或路由器故障。如果整栋楼都上不去网的话,我们可以判断是不是交换机掉电,这时我们只须看交换机电源指示灯就可判断.

(四)主机物理故障

网卡故障,笔者把其也归为主机物理故障,因为网卡多装在主机内,靠主机完成配置和通信,即可以看作网络终端。此类故障通常包括网卡松动,网卡物理故障,主机的网卡插槽故障和主机本身故障。

排查方法:当我们用ping命令ping本机的ip地址时,如若不通我们可以判断是网卡的问题,或操作系统的问题,因网络中心人员有限我们不负责电脑硬件或电脑软件问题.

二、逻辑类故障

逻辑故障中的最常见情况是配置错误,也就是指因为网络设备的配置错误而导致的网络异常或故障。

(一)路由器逻辑故障

路由器逻辑故障通常包括路由器端口参数设定有误,路由器路由配置错误、路由器CPU利用率过高和路由器内存余量太小等。

排查方法:路由器端口参数设定有误,会导致找不到远端地址。用Ping命令或用

Traceroute命令(路由跟踪程序:在UNIX系统中,我们称之为Traceroute;MS Windows中为Tracert),查看在远端地址哪个节点出现问题,对该节点参数进行检查和修复。

路由器路由配置错误,会使路由循环或找不到远端地址。比如,两个路由器直接连接,这时应该让一台路由器的出口连接到另一路由器的入口,而这台路由器的入口连接另一路由器的出口才行,这时制作的网线就应该满足这一特性,否则也会导致网络错误。该故障可以用Traceroute工具,可以发现在Traceroute的结果中某一段之后,两个IP地址循环出现。这时,一般就是线路远端把端口路由又指向了线路的近端,导致IP包在该线路上来回反复传递。解决路由循环的方法就是重新配置路由器端口的静态路由或动态路由,把路由设置为正确配置,就能恢复线路了。

路由器CPU利用率过高和路由器内存余量太小,导致网络服务的质量变差。比如路由

器内存余量越小丢包率就会越高等。检测这种故障,利用MIB变量浏览器较直观,它收集路由器的路由表、端口流量数据、计费数据、路由器CPU的温度、负载以及路由器的内存余量等数据,通常情况下网络管理系统有专门的管理进程,不断地检测路由器的关键数据,并及时给出报警。解决这种故障,只有对路由器进行升级、扩大内存等,或者重新规划网络拓扑结构。

(二)一些重要进程或端口关闭

一些有关网络连接数据参数得重要进程或端口受系统或病病毒影响而导致意外关闭。比如,路由器的SNMP进程意外关闭,这时网络管理系统将不能从路由器中采集到任何数据,因此网络管理系统失去了对该路由器的控制。或者线路中断,没有流量。

排查方法:用Ping线路近端的端口看是否能Ping通,Ping不通时检查该端口是否处于down的状态,若是说明该端口已经给关闭了,因而导致故障。这时只需重新启动该端口,就可以恢复线路的连通。

(三)主交换机上ip地址与物理MAC地址绑定错误.

判断方法:首先要判定线路没有问题,在这种情况下我们ping网关会ping不通,但是ping其他同一网段的ip地址可以ping通或arp –a能够看到网关及网关的物理地址,那么我们就可以判断是地址绑定错误.这时给网络中心负责ip地址管理的同学打电话,修改其绑定的物理地址.

(三)主机逻辑故障

主机逻辑故障所造成网络故障率是较高的,通常包括网卡的驱动程序安装不当、网卡设备有冲突、主机的网络地址参数设置不当、主机网络协议或服务安装不当和主机安全性故障等。

1.网卡的驱动程序安装不当。网卡的驱动程序安装不当,包括网卡驱动未安装或安装了错误的驱动出现不兼容,都会导致网卡无法正常工作。

排查方法:在设备管理器窗口中,检查网卡选项,看是否驱动安装正常,若网卡型号前标示出现“!”或“X”,表明此时网卡无法正常工作。解决方法很简单,只要找到正确的驱动程序重新安装即可。

3.主机的网络地址参数设置不当。主机的网络地址参数设置不当是常见的主机逻辑故障。

比如,主机配置的IP地址与其他主机冲突,或IP地址根本就不在于网范围内,这将导致该主机不能连通。

排查方法:查看网络邻居属性中的连接属性窗口,查看TCP/IP选项参数是否符合要求,包括IP地址、子网掩码、网关和DNS参数,进行修复。

计算机网络技术发展迅速,网络故障也十分复杂,上述概括了常见的几类故障及其排查方法。针对具体的诊断技术,总体来说是遵循先软后硬的原则,但是具体情况要具体分析,这些经验就需要您长期的积累了。如果你是网络管理人员,在网络维护中的还需要注意以下几个方面:

第一,建立完整的组网文档,以供维护时查询。如系统需求分析报告、网络设计总体思路和方案、网路拓扑结构的规划、网络设备和网线的选择、网络的布线、网络的IP分配,网络设备分布等等。

第二,做好网络维护日志的良好习惯,尤其是有一些发生概率低但危害大的故障和一些概率高的故障,对每台机器都要作完备的维护文档,以有利于以后故障的排查。这也是一种经验的积累。

第三,提高网络安全防范意识,提高口令的可靠性,并为主机加装最新的操作系统的补丁程序和防火墙、防黑客程序等来防止可能出现的漏洞。

我们还可以从维护的过程中分析各种常见的故障:

请选择搜索类别 键盘 笔记本配件 服务器配件 笔记本电脑 台式机 服务器 工作站 磁带机 网络交换机 网络存储器 掌上电脑 电池 激光打印机 多功能一体机 投影机 液晶电视 液晶显示器

三、常见网络故障分析

(一)Windows系统常见网络故障解决方法

1、QQ、MSN MESSENGER 能上,不能打开网页的故障分析。

(1)DNS服务器设置错误:请检查网络连接中收选DNS和备用DNS设置是否正确。

(2)TCP/IP协议出错:如果DNS设置无误但仍无法浏览网页,就应检查TCP/IP协议是否正确安装。如果重复安装两次拨号网络适配器或TCP/IP协议,就极可能造成无法浏览网页,请务必删除一个。如果要卸载并重新安装TCP/IP协议,请卸载后重新启动电脑,再重新安装。

(3)如果是IE不能打开网页,而换用其他浏览器正常,则需要重新安装IE。

2、能上网但PING 不通

如果你PING指定的IP地址不通,但又不是 所有的都不通,这种现象可解释为:指定的IP地址设置了防PING规则(如安装防火墙)一般在不能上网时才使用PING测试,顺序一般是:ping 127.0.0.1->ping 自己 -->ping网关-->PING代理服务器-->ping dns 服务器,它是测试网络是否正常的一种铺助办法。

3、上不了网处理方法

第一步:首先进入命令行模式,通过ping 127.0.0.1 来判断TCP/IP协议是否正确安装,不通则重新安装设置。

第二步:输入 IPCONFIG 获得本机IP 网关,通过PING 本机IP判断网卡是否有问题 如果不通 重新安装驱动.

第三步:前两步已经判断工作正常,可查看线路问题还是出在远程服务器或路由器线路上 执行 PINF网关IP地址,如果不通则说明问题基本出在线路上,这个时可查看RJ45水晶头是否扭断和更换网线测试,如果通则说明从本机到服务器或路由器的远程连接正常,问题在电信方面,与本机无关

二)局域网网络故障排除策略

LAN(局域网)在使用中易出现各式各样的故障,不但造成使用中的问题,也会大大影响网络的安全。但严格说来,LAN的故障并非无规律可循。随着理论知识和经验技术的积累,故障排除将变得越来越快,越来越简单。规范的网络管理,是减少网络故障的重要手段;完善的技术档案,是排除故障的重要参考;而有效的测试和监视工具则是排除故障的有力助手。 下文我们将就LAN(局域网)中常见的故障成因进行简单的分析并给出解决办法。

网络邻居有关的故障

★在网络邻居中看不到任何计算机

本机网络配置不当,最大的可能是网卡的驱动程序工作不正常。请检查网卡的驱动程序,必要时重新安装驱动程序。

★在网上邻居或资源管理器中只能看到本机

一般只要能看到本机,就至少说明网卡已正确安装,这种网络通信错误多是由网线断路或者与网卡的接确不良造成,还有可能是Hub有问题。

★网上邻居中找不到域及服务器,但可找到其他的工作站

多是由未顺利登录Windows网络造成。在“控制面板—>网络—>Microsoft网络客户”中,将登录时Windows与网络的连接由慢速改为快速连接。

★在查看网上邻居时,会出现“无法浏览网络。网络不可访问。想得到更多信息,请查看‘帮助索引’中的‘网络疑难解答’专题。”的错误提示

原因是多方面的,应首先按上述步骤检查网卡驱动、网线连接情况等。

(1)网卡是否正常工作,是否与其它的硬件冲突?

打开“控制面板—>系统—>设备管理”。查看硬件的前面是否有黄色的问号、感叹号或者红色的问号。如果有,必须手工更改这些设备的中断和I/O地址设置。

(2)Windows网络是否登录?

如果在Windows启动后,要求输入Microsoft网络用户登录口令时,点了“取消”按钮则会出现类似症状。要登录NT服务器,必须以合法的用户登录,并且输入正确口令。 ★可以访问服务器或Internet,但网上邻居中却看不到其他工作站

(1)如果使用了WINS解析,可能是WINS服务器地址设置不当。

(2)检查网关设置,若双方分属不同的子网而网关设置有误,则不能看到其他工作站。

(3)检查子网掩码设置。

LAN(局域网)在使用中易出现各式各样的故障,不但造成使用中的问题,也会大大影响网络的安全。但严格说来,LAN的故障并非无规律可循。随着理论知识和经验技术的积累,故障排除将变得越来越快,越来越简单。规范的网络管理,是减少网络故障的重要手段;完善的技术档案,是排除故障的重要参考;而有效的测试和监视工具则是排除故障的有力助手。

网卡相关故障

★网卡无法安装

这多是由于PC上安装了过多其它类型的接口卡,造成中断和I/O地址被占用或冲突。可以先将其他不重要的卡拿下来,再安装网卡,最后再安装其他接口卡。

如果PC中有一些安装不正确的设备,或有“未知设备”一项,使系统不能检测网卡。这时应该删除“未知设备”中的所有项目,然后重新启动计算机。

另一种可能是PC不能识别这一种类型的网卡,其原因是多方面的,比如主板的兼容性等。这种情况多通过更换网卡来解决。

★在安装网卡后“控制面板—>系统—>设备管理器”报告“可能没有该设备,也可能此设备未正常运行,或是没有安装此设备的所有驱动程序”

可通过如下步骤检查:

(1)没有安装正确的驱动程序,或者驱动程序版本不对。

(2)中断号与I/O地址没有设置好。有一些网卡通过跳线开关设置;另外一些是通过随卡带的软盘中的Setup程序进行设置。

★安装网卡系统启动变得很慢

多是由于在TCP/IP设置中设置了“自动获取IP地址”,这样每次启动计算机时,计算机都会主动搜索当前网络中的DHCP服务器,所以计算机启动的速度会大大降低。

一般可通过禁用DHCP,为网卡指定IP地址的方式解决。

网络共享相关故障

1、防火墙也有一定关系

2、还没加入域

3、自己还没设置共享

★网络上的其他计算机无法与我的计算机连接

(1)确认是否安装了该网络使用的网络协议?如果要登录NT/Server域,还必须安装NetBEUI协议。

(2)是否安装并启用了文件和打印共享服务?

(3)如果是要登录NT服务器网络,在“网络”属性的“主网络登录”中,应该选择“Microsoft网络用户”。

(4)如果是要登录NT/Server服务器网络,在“网络”属性框的“配置”选项卡中,双击列表中的“Microsoft网络用户”组件,检查是否已选中“登录到Windows域”复选框,以及“Windows域”下的域名是否正确。

★能够看到别人的机器,但不能读取别人电脑上的数据

(1)首先必须设置好资源共享。选择“网络—>配置—>文件及打印共享”,将两个选项全部打勾并确定,安装成功后在“配置”中会出现“Microsoft 网络上的文件与打印机共享”选项。

(2)检查所安装的所有协议中,是否绑定了“Microsoft网络上的文件与打印机共享”。选择“配置”中的协议如“TCP/IP协议”,点击“属性”按钮,确保绑定中“Microsoft网络上的文件与打印机共享”、“Microsoft网络用户”前已经打勾了。

★无法设定“文件及打印共享”选项

原因是没有安装“Microsoft 网络上的文件与打印共享”组件。在“网络”属性窗口的“配置”标签里,单击“添加”按钮,在“请选择网络组件”窗口单击“服务”,单击“添加”按钮,在“选择网络服务”的左边窗口选择“Microsoft”,在右边窗口选择“Microsoft网络上的文件与打印机共享”,单击“确定”按钮,系统可能会要求插入Windows安装光盘,重新启动系统即可。

★无法在网络上共享文件和打印

(1)确认是否安装了文件和打印机共享服务组件。要共享本机上的文件或打印机,必须安装“Microsoft网络上的文件与打印机共享”服务。

(2)确认是否已经启用了文件或打印机共享服务。在“网络”属性框中选择“配置”选项卡,单击“文件与打印机共享”按钮,然后选择“允许其他用户访问的我的文件”和“允许其他计算机使用我的打印机”选项。

(3)确认访问服务是共享级访问服务。在“网络”属性的“访问控制”里面应该选择“共享级访问”。

其他故障的解决

★可以Ping通IP地址,但Ping不通域名

TCP/IP协议中的"DNS设置"不正确,请检查其中的配置。对于对等网,“主机”应该填自己机器本身的名字,“域”不需填写,DNS服务器应该填自己的IP。对于服务器/工作站网,“主机”应该填服务器的名字,“域”填局域网服务器设置的域,DNS服务器应该填服务器的IP。

★ 笔记本电脑在两个不同的网络环境中来切换网络配置的方法

★ 要简单地实现这个要求,需要借助Windows系统的Netsh命令:先用Netsh

命令获取当前的某一个网络环境的系统网络配置,将它保存为文本文件,再将该文件稍加修改以适合另外一个网络环境后,存为另一个文本文件,这样在网络环境变化的时候,只需要通过Netsh命令,加载上述准备好的相应文本文件,使其自动运行系统配置文件即可。

相关推荐