问题描述
随着网络的普及和新技术的涌现,网络规模日益增大,部署的复杂度逐步提升,用户对业务的质量要求也不断提高。
为了满足用户需求,网络运维务必更加精细化、智能化。当今网络的运维面临着如下挑战: 1)超大规模:管理的设备数目众多,监控的信息数量非常庞大。 2)快速定位:在复杂的网络中,能够快速地定位故障,达到秒级、甚至亚秒级的故障定位速。 3)精细监控:监控的数据类型更多,且监控粒度更细,以便完整、准确地反应网络状况,据此预估可能发生的故障,并为网络优化提供有力的数据依据。网络运维不仅需要监控接口上的流量统计信息、每条流上的丢包情况、 CPU 和内存占用情况,还需要监控每条流的时延抖动、每个报文在传输路径上的时延、每台设备上的缓冲区占用情况等。
网络设备监控
网络设备的统一监控和性能管理是运维平台的重要功能。设备的监控数据包括数据、控制、管理平面数据。
获取设备监控数据的方式有:SNMP、CLI、Syslog、NetStream、sFlow等。 NetSteam 和 sFlow 为网络流量监控技术,主要针对数据平面数据。SNMP是最主流的方式。
传统网络采集技术的问题
奈奎斯特采样定律表示,当采样频率大于信号频率的2倍时,才能完整保留原始信号中的信息。SNMP的采集周期为5分钟,通常会导致细节信息丢失。
传统运维方式有诸多问题
传统网络通过平均5-15分钟的Pulling拉取采样数据,更密集的Pulling拉取会造成网络设备瘫痪。
监控的粒度太大造成网络可视度低。 以SNMP为主的运维系统效率低。 无法达到IT运维一样的实时监控,全程监控,并保留完整历史数据。 无法检测网络大量Micro Burst(微突发)造成的网络问题。
微突发是指在非常短的时间(毫秒级别)内收到非常多的突发数据,以至于瞬时突发速率达到平均速率的数十倍、数百倍,甚至超过端口带宽的现象。网管设备或网络性能监测软件通常是基于比较长的时间(数秒到数分钟)计算网络实时带宽。在这种情况下,看到流量速率通常是一条比较平稳的曲线,但是实际设备可能已由于微突发导致丢包。
总结:传统采集机制无法满足大数据要求
我们需要一个支持超大规模网络及海量数据运维的机制,具备实时性、高性能,易于扩展等特点。
解决方案
Telemetry(Network Telemetry,网络遥测技术),提供周期采样网络设备内的统计数据和状态数据的能力。是一项远程地从物理设备或虚拟设备上高速采集数据的技术。其是一项监控设备性能和故障的远程数据采集技术。
业界也有将SNMP认为是传统的Telemetry技术,把当前Telemetry叫做Streaming Telemetry或Model-Dr[……]