目 录
1 综合管理的必要性 ........................................................................................................................................................................ 2 2 系统概述 ........................................................................................................................................................................................ 2 3 系统结构 ........................................................................................................................................................................................ 2 3.1 系统逻辑结构............................................................................................................................................................................. 2 3.2 系统组网 .................................................................................................................................................................................... 3 3.2.1 集中管理模式 ......................................................................................................................................................................... 4 3.2.2 分级管理模式 ......................................................................................................................................................................... 5 4 主要功能 ........................................................................................................................................................................................ 5 4.1.1 网络拓扑发现 ......................................................................................................................................................................... 5 4.3 故障管理 .................................................................................................................................................................................. 23 4.3.2 告警分析与统计 ................................................................................................................................................................... 24 4.3.3 告警处理 ............................................................................................................................................................................... 25 4.4 设备管理 .................................................................................................................................................................................. 28 4.4.2 设备快照及设备管理提示信息 ........................................................................................................................................... 29 4.4.6交换机端口详细信息查询 .................................................................................................................................................... 33 4.4 桌面安全管理........................................................................................................................................................................... 34 4.4.1 储存设备管理 ....................................................................................................................................................................... 34 4.4.2 终端外设控制 ....................................................................................................................................................................... 34 4.4.3 终端操作监控 ....................................................................................................................................................................... 35 4.5 报表管理 .................................................................................................................................................................................. 35 5 系统特点 ...................................................................................................................................................................................... 37
1 综合管理的必要性
随着IT的不断发展,众多行业从其自身业务发展的角度出发,加强了网络信息化建设力度,在其网络基础上开展电子商务、企业资源计划 (ERP)、办公自动化(OA)等业务内容。而在这一发展过程中,逐步发现除了要依靠网络设备本身和网络架构的可靠性之外,管理和安全成为了关键环节。当前,网络系统的结构复杂和规模庞大,即要保证网络系统的正常运作,又需要保证业务系统的正常工作,传统的各自独立的“分立式”系统已经无法满足复杂的IT系统的管理要求,综合管理平台已经成为大势所趋的方向。
2 系统概述
内网运维综合管理系统是我司完全自主开发的一套xx网络运维与安全管理系统,是一套在充分调研了国内网络现状以及网络管理方式,采用目前为止最先进的网络管理技术,以用户的网络、线路以及服务器、路由器、交换机、计算机等等的日常运作管理为着眼点,独立研发的完全适应于高、中端网络管理软件领域需求的一套优秀、可靠、先进的网络设备资源与应用服务资源、xx、通用管理系统,为广大客户从根本上解决了困扰已久的网络管理难的棘手问题,并且很有效的帮助网络管理人员从根本上提高网络利用率和网络服务的质量。
3 系统结构 3.1 系统逻辑结构
系统监测层包括网络管理、应用管理、设备管理、桌面管理,是监测底层的被管对象层,实现对网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理;同时自动收集、过滤、xx和分析各种管理功能产生的故障事件,实现对故障的快速定
位和处理;对网络和业务应用等IT资源的性能进行监控,定期提供性能报表和趋势报表,为网络性能优化提供科学依据。
用户层是整个系统呈现,是运维管理平台的人机交互接口,系统集中运行展现提供集中的直观的监控呈现、快速发现和分析各类运行隐患,提供了运行一览、网络拓扑、业务拓扑、负载分析、告警台、统计分析等多种监测视图,通过集中化的有机的组合各种视图,为不同角色的人员提供完整的运维管理工作界面。运维服务管理层将人、技术与流程进行有效地融合,实现日常运维工作的自动化、信息化和标准化。
而知识库能自动实现运维知识的积累、沉淀和共享,从而降低IT运维管理对个人的依赖。至上而下的IT运维管理平台能为IT服务管理提供足够的管理元素,帮助管理者从不同的角度、不同层面去了解系统运维状况,为领导决策提供科学依据,同时生成多种工作记录,领导可对IT运维管理人员的绩效进行客观的评估,从而帮助用户实现对IT服务基础支撑系统的透彻管控。
监测层和用户层通过统一的资源库和子系统接口来进行有机的融合,同时系统提供了单点登录和统一认证的支持,确保从上到下的操作是必须经过统一登录认证和操作审计的。其他集成接口系统包括系统数据交换接口和分布式数据采集接口,通过系统数据交换接口,可以建立多层系统部署的数据交换,同时也可以和异构系统集成,通过分布式数据采集接口可以实现数据的远程采集。
图1 系统逻辑结构框图
3.2 系统组网
系统能够方便地满足用户在网络运维管理中的组网需求。依据目前的管理要求,在网络运维管理系统实施过程中通常采用的组网模式有两种:集中管理模式和分级管理模式。
集中管理模式适用于统一网管中心的网络,这个网络可能规模很大,也可能是一个园区网络,但其只有一个管理中心。
分级管理模式则是针对企业级、电信级网络建设和管理的实际需求提供的一种分布式管理模式,在这种模式中,网络管理不仅有中心,而且还有各级分中心,管理过程也是实行分级分范围管理,以满足实际运行维护的需求。
系统很容易实现上述两种网络运维管理的组网模式,依据实际需求构架不同的网管结构,两种组网模式分别如下图所示。
3.2.1 集中管理模式
图2 系统集中管理示意图
3.2.2 分级管理模式
图3 系统分级管理示意图
4 主要功能
4.1 网络管理
4.1.1 网络拓扑发现
系统能够采用多种算法、迅速搜索整个网络内的所有节点、自动勾画出整个网络的准确物理xx,包括设备间的冗余连接、备份连接、均衡负载连接,网络用户可以为每条设备间连接加以注释,为每台设备设置中文设备名称,监测网络中每台设备的名称、IP地址、类型、厂商等,并能够自动辨别线路连接类型。提供xx的编辑功能,可以在已发现的xx上进行编辑修改连接关系。同时,根据拓扑所反应的对象,系统呈现给用户的拓扑分为网络拓扑、物理拓扑
和子网拓扑。
网络拓扑是根据网络层的角度来分析和展现的,表达了被管网络各个子网之间的连接关系
图4 系统网络拓扑图示例
物理拓扑是反映被管网络的实际连接的二层网络拓扑图。
图5 系统物理xx示例
子网拓扑是从网络链路层角度进行分析并给出的逻辑拓扑结构。
图6 系统子网xx示例
4.1.2 链路状态显示
系统在网络拓扑发现结束后,会自动地画出设备间的连接关系,即链路,同时对链路的连接状态进行监视和管理,可对指定链路设定告警阈值,如链路带宽占用率阈值、链路速率阈值等,在链路连接发生故障或达到告警阈值时时,链路以颜色的改变提醒网络管理人员,并产生相关告警。
用户可直观的从链路提示信息中获取到该链路的基本信息,包括:该链路的源设备IP地址、源端口、目的设备的IP地址、目的端口以及该链路实时的进出流量、错误率、丢包率等。如下图所示:
图7 系统链路及相关参数显示示例
4.1.3 故障显示
xx上所显示的各被管对象的颜色可以直接反映出其内部被监控对象的状态。如绿色表示用户所关心的对象正常运行,黄色表示警告信息,红色表示严重错误。
图7 系统xx故障显示示例
跨地域的多层网络监控
通过采用多层网络管理机制,可以在总部网络管理中心直接调阅各下属单位的网络实时物理网络拓扑结构,各个层次相对独立,上级部门在需要时可以对下级部门进行管理,保证了整个网络管理的统一性和完整性。
4.2 性能监测管理
性能监测管理能够帮助网络管理员监测网络及设备的性能,分析和确定网络及设备的性能瓶颈,为网络及设备的性能优化提供可行的参考。例如可以对指定的端口进行流量监视,从而判断出网络流量瓶颈等问题。
系统能够监视的性能参数包含:
网络设备性能参数:包括路由器、交换机、防火墙等网络设备的CPU、内存使用率,各端口进出流量、丢包率、错包率、带宽使用率、设备响应时间等信息;
服务器性能参数:包括各类应用服务器设备的CPU、内存、硬盘空间使用率等运行信息,以及其上运行的应用程序和相关服务性能信息,如应用和服务的响应时间、系统资源使用情况、自身性能指标、服务可用性等;
数据库性能参数:包括对各种主流数据库(如ORACLE、DB2、Sybase、SQL server、Mysql等)的基本参数、文件系统、表空间、碎片、死锁、消耗大cpu的SQL、占用长时间的SQL等状态信息。
4.2.1 网络设备监测管理
从各个方面对网络设备进行监测和管理,包括网络设备的可用性、设备性能、流量管理和业务分析等。网络设备包括各种类型的交换机、路由器、防火墙、VoIP网关设备和其他启用了SNMP协议的网络设备。
(1) 设备基本信息
设备的基本信息包括设备名称、设备类型、设备厂商、设备节点合法性(是否登记为合法设备)、IP状态(是否在线)、是否支持SNMP及设备OID等信息不可修改;允许用户修改的基本信息有:设备别名、主标识IP、设备等级(是否重要设备)、只读Community、可写Community、设备描述等。
图9 设备基本信息图示
(2) 设备流量监测
监测设备端口的数据流量情况,及时发现异常的网络流量。监视对象包括端口入速率、端口出速率、端口入单播帧速、端口出单播帧速、端口入广播帧速、端口出广播帧速等。
图10监测设备端口的数据流量情况
图11设备端口的实时流量图示
(3) 端口丢包率监测
可通过检测端口通讯链路的稳定性、抖动率,及时发现系统隐患,保证业务正常。
图12端口丢包率监测情况
4.2.2 服务器监测管理
为确保企业关键主机、服务器设备的高速、稳定运转,系统可从多个方面对主机服务器的硬件设备及操作系统进行监控管理和性能管理。
系统通过高度集成的服务器管理模块对服务器的CPU、内存、硬盘、网卡等硬件的关键运行参数,以及软件和应用程序的进程、服务、端口等的运行状况,对系统日志进行分类扫描查询。通过数据采集和分析,系统能够及时对影响服务器运行性能的故障事件发送报警,并采取相应的故障处理措施,保证服务器的正常安全运行。
(1) 基础性能监测
CPU性能监测
通过线性指标能够了解到服务器系统CPU资源占用情况。
图13 服务器CPU资源占用情况
内存使用情况监测
通过线性指标能够了解到服务器系统内存资源占用情况。
图14 服务器内存使用情况
磁盘使用情况监测
通过柱状图能够了解到服务器系统磁盘空间占用情况。
图14 服务器磁盘使用情况
(2) 服务进程监测
服务监测
监控服务的运行及变化情况,用来判断服务是否正常
图15 服务运行状态监测图示
进程监控
监控进程中线程的性质,CPU、内存的使用情况,分析进程的安全状态。
图16 进程运行状态监测图示
4.2.3 数据库监测管理
全面智能的监测各种与数据库应用相关的服务。对Oracle、SQLServer、Mysql等数据库从应用可用性、系统资源占用和数据库性能指标三个方面提供全面的监测管理策略,确保数据库的运行正常。
可监测数据库的关键参数,如数据库系统设计的文件存储空间、系统资源的使用率、配置情况、数据库当前的各种资源情况、监控数据库进程的状态、进程所占内存空间、可用性等。
(1) 数据库基本信息
包括文件系统、碎片、死锁、消耗大cpu的SQL、占用长时间的SQL等。
图17 数据库基本信息监测图示
(2)数据库表空间
数据库表空间的使用信息。
图18 数据库表空间监测图示
(3)数据库文件I/O
数据库的文件读写信息。
图18 数据库文件I/O监测图示
4.2.4 性能实时和历史图表
系统对于所监视设备性能参数,均提供两种性能图表(历史性能图表和实时性能图表)供用户查看及分析。
图19 历史CPU利用率统计示意图
图20 实时CPU利用率示意图
图20 历史端口接收流量示意图
图21 实时端口接收流量示意图
系统同时为用户提供了多种性能参数的统计报表,便于网络管理员获悉网络及设备的各种性能情况,以便更有效地评估和优化网络及设备的性能。详情请参看“报表”章节。
4.2.5 性能预警
对于网络及设备的性能监视是网络管理的一个重要的功能,同时如何做好故障发生前的性能预警,在故障发生前通知网管人员及时予以处理,也是网管性能管理的一个关键环节。系统的性能管理功能和故障管理功能的结合,可以为网络及设备的性能做相应的预警,在监视某性能参数超过预置的门限时,产生告警,及时地通知网络管理人员。
系统可以针对主机资源参数,如CPU使用率,内存使用率等设定合理的门限值,在性
能越界的时候给出性能预警。
图21 主机资源预警示意图
系统可以针对网络性能参数,如进出流量,错误率、丢包率等设定合理的门限值,在性能越界的时候给出性能预警。对于网络性能参数的性能预警,不仅仅只是针对整个设备,同时对于设备上的端口也可以做更为细化的门限和性能预警设置,比如交换机,既可以对交换机总流量进行性能预警,同时也可以对其相应的端口做门限设置后性能预警。
图22 网络性能预警设置示意图
系统可以针对所监视的应用程序和相关服务,如响应时间等设定合理的门限值,在性能越界的时候给出性能预警。
图23 网络服务预警事件示意图
4.2.6 性能监视参数的拓展
系统除了提供对于设备常用相关性能参数的监视外,同时也为用户提供了灵活简便地性能监视参数拓展的功能,用户可以根据实际管理维护工作的需要进行相关性能监视参数的拓展与添加。
4.3 故障管理
故障管理系统是管理骨干网xx网络的设备、网络和业务所出现的故障;帮助网管人员采集、统计和分析来自网络各方面的报警信息和故障信息,准确预警、定位和解决网络中的故障。
4.3.1 告警自动通知
故障发生时系统将视告警严重等级的不同,分别以红、橙、黄、粉红、绿五种颜色及不同的图标代表。
图24 故障等级示意图
除了常见的声光告警以外,系统还提供发送邮件、手机短信等告警通知方式。
图25 邮件告警设置示意图
4.3.2 告警分析与统计
告警上报的同时,系统能实现故障根源性分析,从众多的告警噪声中剥离出真正的告警源。
提供当前和历史告警统计,可以针对不同的过滤条件进行统计(比如:发生的时间段,严重等级,告警消息,IP地址等),并提供相应的统计报表。
图26 故障统计示意图
4.3.3 告警处理
系统提供对于各种告警的处理功能,包括:查看告警的详细信息、添加告警注释、告警的确认、告警的清除、告警的删除、告警的查找以及对于历史告警信息的统计查询功能。
图27 告警详细信息显示窗口
系统提供的告警逐步升级的功能,可以帮助管理员依据预先设定的条件规则对所发生的关键性告警进行进一步的追踪和提醒,比如当某设备上指定类型的告警在规定的时间内未解决时,可以自动升级为更高严重等级的告警,并扩大通知网络管理人员的范围等等。
系统提供告警依赖性(或xx性)的设置,可以防止与发生故障的设备相xx的设备在此设备已经发生故障时,系统还对其xx设备进行无谓的轮询,造成系统性能的下降。
系统同时对设备上已知原因的告警提供抑制的功能,可以帮助管理员根据告警的严重程度及时间上的计划做出合理的故障解决安排。
为了防止不同客户端同时进行告警确认等操作,系统采用了对象加锁的方式完成并发控制。
图28 故障告警处理设置图示
4.3.4 故障告警源
系统能够通过多种方式实时采集和监测以下几大类型的告警或事件信息:
设备的告警:直接来自设备本身的告警;如:CPU过负荷,内存不足、交换机某端口断掉等等。
应用服务的告警:监视的关键应用服务发生故障时所产生的告警,如:服务运行状态、响应时间等等不正常。
性能的告警:当设备某个性能指标超出预先设定的门限时,系统触发性能告警。如:设备主机资源参数、端口流量、端口丢包率等等超过预先设置的门限值等。
通信连接告警:当某一设备持续一定时间不响应网管系统时,网管系统生成的该设备的通信连接告警等。
安全管理类告警:违反系统对于安全管理的设置规则后的告警,如:IP和MAC绑定,MAC和端口绑定后,非法盗用IP等等的告警;同时也包括网管系统本身在与用户网络中网络安全设备或系统做过信息管理集成配置后,网络安全设备或系统产生的事件和告警。
4.4 设备管理
系统不仅能够实时监控路由器、交换机、服务器等设备的运行和管理状态,包括设备故障以及主机网络性能参数等等,同时也从设备图标、设备快照、设备管理提示信息、设备面板、设备类型拓展、设备性能参数监视拓展等方面做了更为用户化的设计与增强,以满足用户对于管理操作直观、简便、全面、灵活和具有可拓展性等方面的要求。
4.4.1 形象直观的设备图标
系统对于不同厂商不同型号不同操作系统等的设备都以不同的个性化图标来显示,用户可以直观地从设备图标上就获悉该设备是哪个厂商哪种类型的什么设备,同时还能从反映设备工作状态的图标中获知目前设备是否正常,是否有告警,以及设备的SNMP代理服务是否已经启动等等,如下图所示:
图29 设备图标示例
4.4.2 设备快照及设备管理提示信息
系统的设备快照功能可以帮助用户以直观形象的图形化界面实时获取设备当前的基本管理信息,包括:设备名称、IP地址、网络掩码、类型、分类、系统描述、所运行的服务名称,服务的状态、服务占有的端口、服务响应的时间、接口的基本信息以及主机资源参数的基本信息等,如下图所示:
图30 设备快照
用户同时也可以通过移动鼠标到相应的设备上,实时直观地获取设备的管理提示信息,包括:设备地址、设备类型、主机资源参数以及使用人员、所属部门等手工资产维护信息等。如下图所示:
图31 设备信息示例
4.4.3 设备活动进程及安装软件的查看
系统提供的对于设备活动进程以及已安装软件的查看功能,既可以作为管理员管理服务器、关键主机等设备的一个管理对象,同时也可以作为网络或设备发生异常时,辅助管理员进行故障分析的一种手段,比如:某台关键服务器的流量异常增大,产生告警,管理员可以通过对其活动进程的查看初步了解该服务器目前正在运行的进程,以初步确定造成流量异常增大的可能原因等等。如下图所示:
图32 设备活动进程信息列表示例
4.4.4 设备机架面板
由于国内外网络设备厂商众多,各自厂商的不同型号的产品也庞杂,所以系统为用户提供了两种类型的设备机架面板,并提供用户基于面板的管理操作功能,包括对于交换机运行状态、
端口流量、端口丢包率等性能参数的监视与管理外,同时也提供对于交换机端口的操作,比如交换机端口的管理与取消管理以及对于端口的开启和关闭等。
设备的通用机架面板:该设备机架面板作为没有为设备配置真实面板的补充,同样可以为用户带来直观的面板级的操作与管理。如下图所示:
图33 设备通用机架面板示例
设备的仿真机架面板:系统已经为目前主流的网络设备厂商的相关设备提供了真实的设备面板,基于该面板,用户可以更为方便和直观地进行面板级的操作与管理。如下图所示:
图34 设备仿真机架面板示例
如果在用户实际的实施网络环境中,发现系统没有为某些设备配置真实的机架面板,我司将提供快捷的真实机架面板定制服务,以满足用户实际管理的需要。
4.4.5 网络设备端口分布管理查询
对于网络设备(路由器、交换机等),用户可以通过双击该设备图标,获悉该网络设备端口分布管理的详细情况,如下图所示:
图35 网络设备端口分布管理情况
4.4.6交换机端口详细信息查询
系统的交换机端口详细信息查询是针对用户在日常管理维护工作中,需要实时查看某一台交换机的所有端口或者某几台交换机的所有端口的进出流量等信息而提供的一个参考分析的功能,比如用户感觉网络堵塞,想快捷明了地获悉究竟是哪台交换机哪个端口所连的设备流量较大,就可以通过此功能把所有交换机的所有端口进出流量进行排序,从而及时准确地得到一个结果。
图36 交换机端口详细信息查询
4.4 桌面安全管理 4.4.1 储存设备管理
从用户身份认证、违规使用介质控制、实时监控管理和综合安全审计等多方面,完成对移动介质的登记、发放、收回、外携、维修、销毁等整个生命周期的管理,确保移动介质的安全。通过系统的应用可以实现对安装了客户端的内网计算机的保护,经过特殊处理的保密U盘一旦离开内网规划的安全域网络环境后便无法使用,就将网内的核心数据限定在了安全可控的环境中,有效的保证了内网中核心数据的xx。
4.4.2 终端外设控制
管理员可以给每台机器设置一定的权限,控制终端对USB存储设备、软驱设备、光驱设备、xx设备、xx设备、1394火线设备、磁带机设备、拨号设备、USB打印机、打印机设备、串并口、IDE接口、SCSI接口、PCMCIA卡的使用,规定终端主机可以使用哪些设备,不可
以使用哪些设备,以防止资料通过外部设备泄露出去。
4.4.3 终端操作监控
1)终端行为监控。监控客户端主机基本信息和系统资源利用情况、监控客户端主机当前的进程和服务情况、监控客户主机网卡状态以及动态网络流量、监控客户端的硬件设备和软件安装使用情况。
2)终端程序控制。对终端程序安装进行控制、对终端程序运行进行控制,限制用户安装和执行非法或禁止的网络应用程序。
3)终端远程控制。对已安装客户端的内网终端进行远程屏幕控制,便于管理员远程维护和管理。
4)终端操作审计。对终端文件操作、USB设备操作、打印机操作、软件运行、历史屏幕信息、网络访问行为进行审计,为安全事件的事后取证提供线索,定位相关的责任人。
4.5 报表管理
系统提供各种运行分析和性能分析,信息管理人员能够根据这些报告准确评估整个网络环境运行状况,及早发现故障隐患及性能瓶颈,并对IT系统的计划、扩容和升级提供战略帮助,为IT系统管理的长期规划提供数字依据。
系统支持各类报表生成,自动生成各种组合的相关监测对象实时的或基于天、星期、月的不同报告和报表。
图37 网络运行状态报表示意图
图38 线路异常状态报表示意图
图39 服务状态报表示意图
5 系统特点
(1)统一管理平台,资源监控与运维服务一体化
系统监控层所采集到的各类设备(对象层)的故障、性能、配置事件通过标准接口汇总到系统统一事件分析引擎,借助规则策略库(rules)和服务依赖模型(iBDM),对事件进行过滤、压缩、xx、归并,定位根源告警,集中展现于告警台。系统通过事件紧急故障流程,以声光、短信等方式进行通知督办,并通过服务台及时反馈处理进展,实现事件的“统一接入、统一展
现、及时通知、统一处理”。
(2)应需而动、随需而变的动态业务平台
只有将内网运维综合管理系统和用户实际情况相结合,才能真正贯彻和执行,才能发挥内网安全运维管理的最大效力。
平台内置灵活的动态表单和工作流引擎,为系统的服务流程管理提供了应需而动、随需而变的特性。同时系统通过动态模型编辑器为用户随需建设自己关注的业务视图,为管理员提供快速掌握的业务运行的管理通道。
同时,避免了大量机械枯燥的代码修改和重新编译工作,使得流程和表单的修改更加容易,真正实现运维管理的“应需而动、随需而变”,保证本运维管理系统能够不断适应用户IT 服务管理水平的持续改进与优化。
(3)全方位、灵活的IT 资源管理紧扣用户需求、整合IT 资源
本运维管理平台提供的IT 资源管理基于CMDB 配置管理技术,充分吸收业界其他资源管理理念,建立面向IT 资源和非IT 资源的统一管理和监控体系,提供了多种资源配置数据的录入和导入功能,并同步其他管理流程对资源管理库的改动数据,实现资源管理数据的整个生命周期的管理。
模板化的定义能力,具备联动底层监控系统实现资源同步和检查机制,发现和防止配置的随意修改。
(4)可视化、仪表化、xx导航管理的运维模式
本运维管理平台提供可视化、仪表化、xx导航管理的新型运维模式,大大降低运维管理的技术难度,从整体到细节帮助用户全面掌控网内IT 运行情况,帮助用户熟悉服务与流程的自动化管理,提升IT 服务管理能力,从而最终帮助用户提升服务质量、降低运营成本。
■提供简单化、人性化的、美观化的资源拓扑监控界面以及运维管理界面,让用户快捷、方便了解网络中各种资源运行状态、业务系统运行状态;
■提供可视化的流程定制工具,实现流程定义、流程相关角色权限和流程跟踪控制、审计与统计等功能;
■提供配置项(CIs)的端对端及层次化视图。
(5)丰富的行业经验、专业的服务管理
安络大成科技已经成功地为公安、武警、军队有关部委单位开发与实施了IT 运维管理系统,在系统平稳运行的同时,公司积累了丰富的IT服务管理咨询、培训、规划、实施等方面的经验,为今后类似项目的顺利开展和实施打下了坚实的基础。
因篇幅问题不能全部显示,请点此查看更多更全内容