要让服务器运行良好而且平稳的话,一个非常艰巨重大的任务就是做好网络运维管理。网络管理员使用了许多工具来监视服务器的运行状况,并查看网络流量的上升和下降状况。他们还必须确保整个服务器网络能够平稳地运行,因为只要有一分钟的网络中断就会使得整个机构的工作出现混乱。

使得服务器网络平稳运行的*重要的方式之一就是使用各种网络运维管理软件。现有的网络运维管理软件可以说是多种多样的,但是这些工具往往比较昂贵,因此花些时间去选购是很值得的,需要仔细研究其适用性、性能、专业性等方面的特性,需要判断的因素很多,但短时间内理解这些指标并作出选择可不是一件容易的事。

随着现今互联网行业的迅速发展,某些物联网服务的用户已经达到了亿级,如淘宝网注册用户已达到3.7亿,仅在2015年双十一当天活跃用户过亿。支撑如此庞大用户使用的硬件基础是规模庞大的服务器群。如何获取每一台服务器的运行状态,及时获悉潜在隐患,出现问题及时锁定排除显得至关重要。机房运维人员以及高层决策人员只有在实时掌握这些信息后才可有效地对进行决策,如在访问流量过大或其他恶意攻击后是及时关闭服务还是启动备用服务,服务区瘫痪后是需要工作人员至机房处理硬件问题还是只需远程重启服务器等类似或简单或复杂的决策,都需要底层专家系统信息的支持。

现今比较成熟的开源服务器底层数据的采集解决方案主要有SugarNMS和Nagios。

服务器运维监控软件之 Nagios
Nagios是一个监视系统运行状态和网络信息的监视系统,能监视所指定的本地或远程主机以及服务,同时提供异常通知功能等。Nagios可运行在Linux/Unix平台之上,同时提供一个可选的基于浏览器的Web界面以方便系统管理人员查看网络状态,各种系统问题,以及日志等等。

Nagios 可以监控的功能有:
监控网络服务(SMTP、POP3、HTTP、NNTP、PING等); 2、监控主机资源(处理器负荷、磁盘利用率等);

简单地插件设计使得用户可以方便地扩展自己服务的检测方法; 4、并行服务检查机制;

具备定义网络分层结构的能力,用”parent”主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态;

当服务或主机问题产生与解决时将告警发送给联系人(通过EMail、短信、用户定义方式);

可以定义一些处理程序,使之能够在服务或者主机发生故障时起到预防作用; 8、自动的日志滚动功能;

可以支持并实现对主机的冗余监控;

可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等[2]; 11、可以通过手机查看系统监控信息;

服务器运维监控软件之SugarNMS
智和网管平台主要基于SNMP网络协议对服务器进行运维监控,当然如果是其他协议的设备也可以进行协议扩展。

平台采用了J2SE、XML、Web Service、Web、HTML5、JavaScript、Struts、Spring、Hibernate、SNMP、HTTP、JDBC、Swing、RMI、O-M Mapping、O-R Mapping、Muti-Thread等成熟技术。由表示层、业务层、数据层和设备中间层多层次架构模式组成,提供corba和webservice接口。框架采用设备中间层屏蔽不同厂商设备管理协议的差异,实现支持管理不同类型的被管设备。

自动发现服务器
在自动发现的过程中可以搜索到服务器,并识别服务器的厂商型号,生成设备的面板图或搜索设备资源,如:板卡、端口、CPU、内存、磁盘等。自动设备生成拓扑图。
%title插图%num

服务器综合性能查看

在拓扑图上选中服务器,点击右键,选择设备综合信息。即可查看服务的总体报告、详细信息、管理建议等信息。

%title插图%num

服务器故障监控
智和网管平台实时动态监控网络和设备的运行状态。通过告警来反映设备的运行状态。设备的某个故障监视器(工作状态监视器),在某个时刻只能有一个状态。设备有多少个故障监视器,就有多少个对应的状态灯。

设备和资源图标上会显示设备*严重的状态灯颜色,如设备有4个故障监视器,对应的是红、黄、蓝、绿5个状态灯,那么在设备图标上显示红灯。同样网络图标上会显示网络下*严重的设备状态灯颜色。如网络下有2个设备,一个设备*严重的是红色,另一个设备*严重的是黄色,则网络显示红色。

智和网管平台实时在拓扑界面、资源视图、全网工作状态、告警列表中显示告警信息。

 

服务器性能监控
全面采集服务器资源、应用、服务等性能信息。可将性能信息数据按照时间、资源、性能类型等多种维度以图表等形式展现。支持根据资源类型、监视器种类、时间间隔组合条件查看设备某类资源的实时性能数据;根据时间范围,资源监视器类型以图形和列表的方式展示设备的单个资源的详细性能值。

%title插图%num

其他常用功能
自动发现:在自动发现的过程中可搜索到网络设备,并识别设备类型和厂商型号,生成设备的面板图或搜索设备资源,如:板卡、端口、CPU、内存、磁盘等,并发现设备之间的链路关系。

拓扑管理:以具象化拓扑图方式展示网络设备及其连接关系,用户可编辑。通过拓扑图可以对设备、设备资源、连接进行管理。

设备管理:通过拓扑视图中,用户可以方便的管理设备及其配置参数。

设备资源管理:支持在拓扑图的基础上,进一步展示设备细节,包括设备的物理组件,服务器上的服务(Web服务器、中间件应用服务、数据库服务器、邮件服务器)或者用户定义的其他监控对象。

连接管理:用户可以通过拓扑视图编辑连接,选择连接实时显示的性能数据项。

安全管理:支持多种安全管理功能,如QOS安全策略、MAC-IP绑定、黑白名单以及准入控制等。

统计报表:支持多项数据的统计功能,让用户对网络有一个全面直观的了解放。支持将软件中的统计图表导出或打印,以便备份或对比查看。

整个系统利用智和网管平台开源服务器运维监控解决方案,同时进行二次开发和扩展集成。实现了一套可管理、可监控、可报警的服务器运维监控专家系统。本平台实现了用户对机房的管理与运维监控,更重要的是利用这些信息来与其兄弟单位、子单位以及服务单位的数据对接联通情况。保证了用户可以实时、清晰、准确地了解预报中心各级业务环节的运行状态。一旦出现问题,用户可以及时根据这些信息进行决策,保证业务信息点及时发布。