一直做企业网络技术支持,这些年的工作经验告诉我:一个优秀的网络管理人员只有技术是远远不够的,良好的、科学的习惯有时候比技术更加重要。企业网络更多时候运行在常态下,网管更多扮演着网络维护者的角色,而不是消防队、救火队。这个时候,更需要网络管理员以严谨、认真、积极的态度做好网络的日常维护,而良好的习惯在其中起着决定性的作用。那么,企业网管应该养成哪些好习惯呢?下面分网络常态和非常态分别谈谈网管应该具有的好习惯。
1、常态下,未雨绸缪做好网络状况的检测
我认为衡量一个优秀网管的标准,不是看他排网络故障的效率有多高,而是看他维护的网络发生故障的频率有多低。当然,要彻底避免网络故障是不可能的,但是优秀网管可以让其尽可能少地发生。因为,毕竟网络故障已经发生,不管你的排故效率有多高,但或多或少都会对企业的生成造成一定的影响,特别是信息化程度越高的企业这种影响会越大。我认为,除了科学的网络架构与部署之外,常态下的网络状况检测是减少网络故障的有力保障。这也就是优秀网管平时应该做的工作之一。
其实并不是所有的网络故障都是突发性的,大部分故障都有一个累积的过程,是一个由量变到质变的过程。这就像一位“病人”,最初可能不会感到明显的“身体不适”,如果不进行检查是不能发现的。网络维护其实就像给人看病,排故是最后的选择,此前的检测是非必要的。特别对于服务器、路由器/交换机这些核心的网络设备,定期的性能监控是必不可少的。以路由器为例,网管们通过要对其进行优化,但优化是否会带来其他的隐性问题呢?所以如何及时发现路由优化方面的问题,就是网络定期项目测试中的内容之一,特别是大型网络中则更有必要。如果监控和测试呢?大家知道,许多网络设备如路由器、交换机、只能集线器等都支持snmp网管功能,但为了全面监测网络通道功能,还需要网络设备支持全面的rmon和rmon2,用这样的设备组建起来的网络其管理和故障诊断功能是很不错的。但现实的问题是,这样的网络设备价格是普通网络设备的6~10倍左右,企业不见得有这些it预算。因此,为了随时监测网络的服务应用流量及其比例、来源,工作记录以及必要
时进行解包分析,我建议网管们在重要的服务器通道或路由通道上安装监测接口。以便必要时可以随时将流量分析仪、网络测试仪接入通道进行监测和分析。这样,一来可以在常态下实时了解设备的运行状态,二来在故障排除时能够快速定位,使得故障的查找时间可以缩短很多,降低运维成本。当然,如果资金允许,我还是建议将流量分析仪长期接入通道对多个重要的网络设备进行全速率透明流量监测,这样便于随时了解设备健康状况。退一步,就算该设备出现故障,我们可以在1分钟之内快速定位故障。
与路由器/交换机类似,网管们要对其他是设备进行实时的监控或者定期的检测。网络监控可用专门的仪器(这当然是最好的),当然对于it经费紧缩的企业借用第三方软件也可以实现类似的功能,但是不管怎样,监控、检测是必须要做的。我的感悟,没有监控的网络是不健康的,是一个随时会倒下的“病人”。
2、排故时,不要盲动将网络排故成本将到最低
我遇到过很多这样的网管,当网络发生故障时,不能够冷静地分析问题,而是想当然地进行所谓的“排故”。其结果是不但问题没有解决,而且使得问题扩大化,最后束手无策请专家来维修。而且,由此付出的时间和经济上当投入,使得维护成本大大增加。老总脸色难看,搞得自己很没有面子也很被动。其实,网络排故就像医生为病人做手术或者警察破案,保持一个冷静的头脑是至关重要的,千万不要盲动。现场保存,调查取证,分析研究这是最基本的素质。
(1).评估与现场保存
首要对故障状况有一个大概的评估,是否在自己的能力解决范围之内,如果对自己解决问题没有信心,就不要动手。在专家到来之前,做好现场保存。并进行一定的调查取证,比如故障前的各种操作行为,故障触发时的各种信息,故障现象等。这样在专家到来之后,就能够将这些重要的信息反馈给他们,从而免去他们做类似工作花费的时间,为故障的快速排
除赢得时间。当然,在专家排错的过程中要仔细观察,大胆提问,不但要学习如何排除故障,还要搞懂故障发生的原因。这样,当今后遇到此类故障的时候,就能够自己解决。
(2).隔离与实验测试
最小化原则还有一个方面就是,不要让故障扩大,要马上将故障网络进行隔离。另外,不要因为的轻率操作,使得故障不可收拾。对于那些不是非常危急的故障,可以自己尝试解决。我的建议是,条件允许的话最好在实验环境中进行,通过实验室中的设备模拟出类似故障,然后进行排错。如果没有实验环境,在真实环境中进行操作,首先要做好相应的备份,然后进行网络隔离,最后才进行操作。还有,对自己在排故中的每一步操作做好记录。这非常重要,如果排故失败你就有可能回溯。就算不能回溯,在专家到来时,你至少可以告诉他你都进行了哪些操作,这对于专家快速排故是非常重要的。
(3).不能简单粗暴
做技术支持中,我经常看到这样的管理员:当网络被判为病毒发作时,就会首先启用多种杀毒软件进行查杀毒操作,无效。然后,把所有工作站格式化,重新安装其操作系统和应用软件。但由于问题出在服务器,所以仍然不见效。最后,不得不将所有机器(当然也包括服务器)格式化以后重新安装系统平台及应用软件。当然,这种简单粗暴的做法,应当为技术性的网管所不齿。说到底,这不应该算是网络排故,将一个也许很简单的问题扩大化了,由此增加的网络维护成本太大了。我认为,网络排故的两个基本原则是针对性和最小化。忠告网管们千万不要盲动,采取简单粗暴的做法。
当下,崇尚技术认为技术万能的网管不在少数。由于网络的复杂性,技术的有限性(哪怕你技术再高),仅靠技术不能解决所有问题。因此,我要说的是,如果没有良好的习惯,你一定会为此付出代价。技术与好的习惯对于企业网管,哪个更重要呢?当然不能厚此薄彼,只有两者并举才能成为优秀的网管。
因篇幅问题不能全部显示,请点此查看更多更全内容