主动运维
- 运维小北是独立思考的运维助手,根据丰富的策略库,根据系统运维环境的范围,自主决策需要执行适用的策略主体,策略为专家经验的落实,通过系统平台采集的数据、用户的管理留痕,进行分析和策略化推测,根据事件的紧急度进行及时处置(或通知、或自动处理、或整理汇报)。
- 管理策略以最终决策为主要目标,比如以网络设备脱管问题为例,最终汇报不仅给出管理所需的脱管设备统计,同时对于尚未恢复的脱管设备进行主动分析,识别原因:

- 管理策略以管理主题进行组织,根据不同需要和管理层理所需内容,管理汇报可以倾向于不同的维度,可以是网络技术专题、也可以是全域管理,特别是管理专题汇报模版,可以包含更多管理统计要素,诸如全面监控巡检,核心运行指标等全面总结和评价当前系统运行情况。
- 运维汇报允许分析多个主题,按照不同管理诉求和主题进行输出多份,通知多人。汇报以成果为主,汇报成果允许按照多种主题报告方式呈现,系统会以邮件方式通知,进一步提升运维的便捷性。
全域感知
- 在故障处置场景中,图形化展示网络物理和逻辑是非常重要的手段,而可视化展示程度很大程度上会加快运维问题的排除和定位的效率。系统通过智能发现,实现网络关系的自动发现和展示,并以图标变色、图例方式显示CI对象的故障和高负载情况,协助用户快速在海量对象中,快速识别故障边界设备,并提供详尽的运行数据快速了解系统问题点,协助运维专职快速定位和解决问题。同时系统集成RemotePing、Webssh、Webtelnet、Web管理等多种工具,便于运维专职以拓扑图为运维入口,实现进一步问题定位和故障恢复。
- 提供对于服务器硬件和系统多角度的管理,硬件采用带外管理的模式,支持通用IPMI方式、刀片机SNMP方式等监控。基于可视化视角,前端界面构成以问题维度快速的展示问题组件,以及开机时长。根据部署关系,形成与操作系统的关联,可以快速了解故障问题对于系统性能的影响。
- 操作系统的监控对于确保系统的稳定运行、提高安全性、优化性能以及预防故障具有至关重要的意义。但是操作系统不能从单一角度进行管控,操作系统与其承载的应用软件强相关。
- 系统以系统拓扑方式,展示系统与应用软件的关系,并以图标颜色标识显示性能与告警状态,第一时间为用户呈现应用故障和系统之间的关系。
- 磁盘阵列作为业务数据的核心存储设备,是企业的数据命脉,而磁盘阵列由于频繁读写磁盘,导致硬件的寿命有限,不时会出现单盘故障。为了解决此类问题,系统通过实时告警及时检出硬件问题,也提供可视化一览图,展示每一个磁盘阵列、磁带库、光纤交换机的运行现状,专职可以很容易辨识并处理相关问题。
- 本系统采用设备级统一监控模型,突破传统存储架构限制,创新实现NAS、SAN、DAS等异构环境下的全设备纳管能力。通过构建与存储部署架构解耦的设备感知层,系统可精准识别超过40多类存储设备实体,实现从磁盘阵列、存储控制器到扩展柜的全栈式监控,确保不同存储架构中的设备资产均获得标准化、一致性管理体验。
- 虚拟化监控是主要对虚拟化环境中集群、宿主机、虚拟机、数据存储运行状态和性能等进行监控和统计,旨在辅助IT运维人员实时掌握虚拟化环境的运行状况,保障业务运行的连续性和稳定性。
- 系统支持各类虚拟化厂商的管控,除了监控宿主机运行状态外,更多的通过可视化方式,让使用者及时了解信息化规模、资源使用、资源分配情况。
- IP地址作为网络中的唯一标识符,其管理对于保障网络稳定、高效运行具有重要意义。有效的IP地址管理可以减少网络中的地址冲突和冗余,提高网络的通信效率和性能。通过合理的IP地址规划和管理,可以优化网络布局,提升网络效率。此外,通过对IP地址的监控和管理,可以及时发现并防止恶意攻击和未经授权的访问,保护网络的安全。
- 通过IP地址簿,可以实现自动发现在线终端,以及在线终端的接入端口、接入设备。很容易固化IP-MAC-接入端口的完整地址簿信息。利用该地址簿,信息不仅可以在有序分配和收回IP地址,也可以在出现安全性问题时,通过IP快速查找该设备接入点,从而判断该设备是否造成网络波动。
- 告警是系统24小时守护系统的经典检查方式,但是为了保证数据完整性,周期的执行更为深入的指标检测并形成管理报表,也是部分行业用户管理手段之一。本系统的智能巡检系统,能最大可能将可以自动巡检的项目自动执行,支持日、周多种类型的巡检周期,并形成服务管理诉求的巡检报告。
- 告警支持轮询方式的数据采集,以及syslog、trap方式的被动接收方式,支持15秒级别异常检测并通知的效率。
- 为了实现辅助用户快速定位故障点,系统提供事中分析,告警时不仅同当前告警信息,同时给出同资源同期告警信息,通过多个指标告警时的先后次序,辅助判断本次告警根因。
- 提供事后告警分析,从同一对象出现次数、同一对象的指标、同一类型的指标出现的次数分析历史告警情况,辅助判断普遍问题,从数据中提取管理抓手,从而提升故障预防的管理成效。
- 在企业的IT运维过程中,通过对历史记录的有效分析,往往能够发现IT环境中存在潜在问题,帮助IT运维人员提前解决故障隐患,避免故障的故障发生,提高IT运维的效率。
- 针对管理对象指标数据类型的不同,存在两种使用场景:针对数值型数据的历史记录,提供曲线图方式的分析手段;针对表格型数据的历史记录,提供表格内容对比分析手段。
时刻网服务
- 提供持续的运维实践知识收集与分享,面向北塔全国的技术团队以及各行业专家用户,持续收集运维实践用例、技巧经验,进行全网用户分享。提供在线问答、在线培训、经验分享、积分求助、用例推荐等知识分享与互助社区服务
- 在运维软件使用中,通过帮助中心,可以便捷获取各个功能模块的实践用例推荐,用户可以借鉴已有外部运维实践经验,快速落地用户内部运维业务。
- 北塔时刻网汇聚行业用户应用需求,收集大量用户专家的场景模板创意,转换成小北策略包,通过应用商店持续发布,对于已购买订阅服务的用户可以免费下载最新内容,安装本地后,相关策略包会自动识别IT已纳管现状,自主安排相关运维策略。从而实现先进经验的快速落地,运维效率的有效提升。