新闻中心

EEPW首页 > 手机与无线通信 > 设计应用 > 浅淡网络运维的紧急故障处理及对策

浅淡网络运维的紧急故障处理及对策

作者:时间:2012-06-27来源:网络收藏

标签:维护 内网服务 外网服务

本文引用地址:http://www.eepw.com.cn/article/154534.htm

随着信息化进程的飞速发展,已经成为每个现代企业必须的要素之一。相对于维护,网络运维更加侧重于保障网络系统的正常运行,运维有运行和维护两层含义。对于一个系统,有时出错我们无法预知,系统越复杂,其难维护难度更大,为了减少损失,我们尽可能地去预防各种错误,对于突发情况,尽可能地去修复。

解决的通用流程

在本文开始前,笔者先给出解决的流程图,见图一。

浅淡网络运维的紧急故障处理及对策

图一

根据上述流程图,我们可以一目了然明白网络运维的流程。

当客户端发生网络中断的故障后,首先判断用户(或终端)到三层网关设备之间通道是否存在问题,从用户(或终端)上ping网关是否能通,用户(或终端)自身是否发生问题。

二层网络是否正常:如果用户(或终端)ping网关不通,则检查下端二层网络、用户网线、三层网关设备以下网线或光纤是否正常,端口是否UP,是否有CRC error报文统计。检查二层网络中的交换机设备是否能正常学习到用户MAC地址,检查三层网关设备与二层交换设备之间的连通性、二层设备的CPU利用率是否正常,是否有二层环路造成或病毒攻击。首先确保用户(或终端)能正常ping通网关设备。

三层网络是否正常:可以通过telnet/console口登陆三层设备,如果有问题,通过ping、tracert、show logging、端口统计、CPU利用率统计、链路状态、路由表状态、MPLS标签表状态等对问题进行分析,在业务忙时,不得擅自重启或倒换三层核心路由器等设备。

如果用户上网或承载业务仍然存在故障,可以查看DNS等外界环境是否正常,承载的业务本身是否发生问题,查看相关告警,然后做出相应的

其它问题,如果现场不能解决,就通报关键用户并联系厂商解决。

在本文中,笔者就以网络不通的故障为例,讲解网络运维的紧急故障处理的比较通用的思路和解决方式。

假设有一天,接到通知报告网络不通了。给人的第一感觉是某个服务出现异常而中断,比如打不开OA页面,或者打不开Google页面。让我们看看,一个合格的运维人员是如何循遵怎样的思路来寻找故障的原因并解决的。

确定哪些服务中断

首先要做的就是区分内网服务和外网服务。

在笔者所在公司中,很多自己开发的、只限于公司员工使用的服务都是内网服务,比如OA、邮箱、ERP等等。而像QQ、微博那样的则属于外网服务了。

在这样的环境下,内网服务的网络关键节点如下所示:

终端→接入交换机→联网路由器→核心路由器→核心交换机→服务器

依赖的基础服务为:内网DNS服务器。

外网服务的网络关键节点如下所示:

终端→接入交换机→核心交换机→互联网接入交换机→上网行为管理设备→互联网防火墙→外网服务器

依赖的基础服务为:内网DNS服务器,公网DNS服务器。

如果当前访问的服务突然中断,那么首先看看是内网的服务还是外网的服务。然后再在内网和外网分别自选一种服务尝试访问一下。例如ERP突然无法访问了,那就尝试访问一下内网的门户系统和邮件系统,以及外网的一个知名网站。

以下表格(表二)有助于理解故障寻找的过程和思路:

浅淡网络运维的紧急故障处理及对策
浅淡网络运维的紧急故障处理及对策

表二

确定其他人的症状相同

只是从自己的机器对网络和服务做出判断并不够客观,也不够严谨。前面我们已经大致的推测出故障原因,在这一节我们尝试对这个推测进行证明。

要记住这一点:可重复的结果才是基本可靠的结果。

为了证实测试结果的可重复性,我们需要从不同的网络起点重复相同的测试步骤。

让我们以公司的实际场景来阐述分析故障的思路。目前随着网络技术的成熟,网络架构也趋于稳定,一般的全省级的公司网络拓扑示意图如图三:当然,实际工作中,地市分公司下面,根据业务需要,还会有县级的办公网络、营业网点,实际广域网络会达到三层。



评论


相关推荐

技术专区

关闭