主頁(http://www.130131.com):LTE業(yè)務感知與承載網性能智能測量方案分析 【摘要】從國內LTE(Long Term Evolution,長期演進)網絡建設運營現狀和運維要求出發(fā),介紹了國內主流運營商LTE承載網的性能測量需求和當前主流的測量標準,并在此基礎上給出了可滿足需求的智能測量方案,從而提升運維效率,降低運維成本,提升網絡價值。 1 引言 國內LTE牌照已于2013年底發(fā)放,2014年,各大運營商陸續(xù)推出了自己的LTE業(yè)務品牌,并開始大規(guī)模部署LTE網絡。從目前情況看,各運營商已形成相當規(guī)模的LTE承載網絡,并初步具備海量基站業(yè)務高效開放、網絡架構優(yōu)化、故障檢測與自動倒換、接入設備即插即管理、多業(yè)務融合承載、網絡與業(yè)務建模及批量配置下發(fā)等功能。同時,由于當前LTE承載網存在網元數量眾多、運維人員緊缺、難以依靠人工完成網絡性能測量和故障定位等問題,而傳統(tǒng)的ping/traceroute等測量方法也存在測量指標單一、測量精度不高、故障定位效率低下的不足。因此各大運營商開始尋求可對LTE承載網網絡性能實現集約化智能測量的方案,基于該方案,可同時基于多個業(yè)務等級,對多項性能指標進行多顆粒度(網絡級和業(yè)務級)測量,并可快速完成故障定位。 本文將從LTE承載網性能測量的需求出發(fā),結合現有標準、網絡現狀和不同的應用場景,引入相應的智能化網絡性能測量解決方案,為運營商減少運維復雜度、降低運維成本、提高運維效率、提升網絡價值提供有力的參考依據。 2 LTE承載網性能測量需求 LTE承載網性能測量主要在開局部署驗收和日常運營維護這2個方面存在需求。 2.1 LTE承載網開局部署驗收測量需求 在LTE承載網典型組網場景中[1](如圖1所示),在開局部署階段,匯聚及核心設備通過下發(fā)工單的方式進行部署,人工完成匯聚—核心段網絡層性能測量和驗收;接入設備采用即插即管理的部署方式,現場人員僅負責設備上電和光纖連接,通過遠程方式智能完成其配置下發(fā)、端到端(接入—核心段)性能測量和驗收。
在該階段網絡層性能測量的SLA指標主要包括時延、抖動、丟包率和吞吐率(驗證QoS (Quality of Service,服務質量)策略是否生效)。 2.2 LTE承載網日常運營維護測量需求 在LTE承載網完成部署,交付運營后,其性能測量主要包括以下3個方面: ◆周期性端到端網絡層性能測量 在網絡存在業(yè)務流量的同時,要求在不影響業(yè)務體驗的前提下,通過遠程方式自動對網絡層管道性能進行周期性測量,包括時延、抖動和丟包率;測量周期與測量流量大小視現網業(yè)務流量負載和運維需求而定。當SLA(Service Level Agreement,服務等級協(xié)定)指標無異常時僅記錄日志;當SLA指標出現明顯劣化時,則啟動故障定位。 ◆業(yè)務級性能測量 要求承載網能感知實際的業(yè)務流量,并智能測量其SLA指標,包括時延和丟包率,并記錄實際流量大小。當SLA指標無異常時僅記錄日志;當SLA指標出現明顯劣化時,則啟動故障定位。 ◆自動故障定位 當網絡層SLA指標出現劣化時,要求自動定位故障位置(如IGP鄰居狀態(tài)正常但單跳時延明顯增大等);當網絡層SLA指標正常但特定業(yè)務體驗出現異常時,要求自動定位出現異常的業(yè)務流、故障位置和原因(如調度隊列異常等)。 3 主流網絡性能測量標準 3.1 主動測量標準 主動測量是由測量服務器主動發(fā)出獨立的測量流量,統(tǒng)計網絡層管道的SLA指標,不感知實際業(yè)務。目前主要有以下標準: (1)ITU-TY.1564以太網業(yè)務性能測量標準[4];谠摌藴剩赏瑫r發(fā)送一條或多條測量流量,對應不同的業(yè)務優(yōu)先級,對兩臺設備間的雙向時延、抖動、丟包率和吞吐率進行測量;各項指標測量可同時進行,也可輪詢進行。 (2)IETF OWAMP(One-way Active Measurement Protocol,單向主動測量協(xié)議)/TWAMP(Two-way Active Measurement Protocol,雙向主動測量協(xié)議)網絡性能主動測量標準[5-6];贠WAMP,可對2臺設備間的單向時延、抖動和丟包率進行測量,參與測量的設備須預先實現時間同步;基于TWAMP,可對2臺設備間的雙向時延、抖動和丟包率進行測量。 3.2 被動測量標準 被動測量一般用于業(yè)務級測量,由承載網設備感知實際的業(yè)務流量,測量出每條業(yè)務流的SLA指標,無需插入獨立的測量報文。目前主要有以下標準: (1)IETF RFC6374MPLS(Multi-protocol Label Switching,多協(xié)議標簽交換)網絡被動測量標準[7],通過在特定業(yè)務流量中周期性地插入帶時間戳的OAM(Operation Administration and Maintenance,操作、管理與維護)報文,實現對業(yè)務流量SLA指標的測量。 (2)IETF IP FPM(IP Flow Performance Measurement,IP流性能測量)框架草案[8],通過周期性地對特定業(yè)務流量進行著色,在不引入任何外部報文的條件下實現對業(yè)務流量SLA指標的測量。 被動測量標準均要求承載網設備預先實現納秒級時間同步。 3.3 主流測量標準比較 主流測量標準間的特性對比如表1所示,在實際應用中,運營商可根據自身情況進行選取和部署。
表1主流測量標準對比 4 LTE承載網性能智能測量方案設計 4.1 開局部署驗收測量方案 LTE承載網的接入設備在部署之前,匯聚設備和核心設備必須預先完成部署和驗收。接入設備采用即插即管理的部署方式,部署完畢后,由集中部署的遠程測量服務器智能完成網絡層性能測量和驗收,如圖2所示:
開局部署驗收采用主動測量方式,驗證網絡層管道的SLA指標和是否存在負載分擔場景的問題,詳細過程如下: (1)測量服務器雙掛一對核心設備。 (2)新部署接入設備AC側接口(eNodeB業(yè)務接口)配置測量代理IP地址,與eNodeB關聯(lián)相同的PW(Pseudo Wire,偽線),匯聚設備向L3VPN(Layer 3 Virtual Private Network,第三層虛擬專用網)同時通告eNodeB和測量代理的主機路由。 (3)測量服務器向其中一臺核心設備發(fā)送測量流量,目的IP為新部署接入設備的測量代理地址,可定義多條測量流量對應相應的業(yè)務等級。 (4)接入設備在接收到測試流量后,交換測試報文的源目IP和源目端口號,并回送測量服務器。 (5)測量服務器依次向核心設備發(fā)送模擬的各等級業(yè)務流量,速率不小于其對應PIR(Peak Information Rate,峰值信息速率),驗證網絡輕載時每條回送流量是否可正常突發(fā)到配置的PIR,記錄該流量的雙向時延、抖動和丟包率。 (6)測量服務器同時向核心設備發(fā)送所有等級的測量流量,每條流量速率均大于其對應的CIR(Commited Information Rate,承諾信息速率),驗證網絡擁塞時每條回送流量是否可保障為配置的CIR,記錄每條流量的雙向時延、抖動和丟包率;若接入設備可從主備PW接收到不同的測量流量,則可驗證下行流量負載分擔生效;若測量服務器可從2臺核心設備接收到不同的回送流量,則可驗證上行流量負載分擔生效。 (7)若時延、抖動、丟包率、吞吐率和負載分擔有效性均滿足要求,則接入設備部署通過開局驗收;否則啟動故障定位至網絡性能滿足要求為止。 4.2 日常運營維護測量方案 (1)網絡層端到端測量 LTE承載網在完成開局驗收交付運維后,須在不影響現網業(yè)務的情況下對網絡層性能進行周期性測量,相關測量仍通過集中部署的遠程測量服務器智能完成,其中在網絡層采用主動測量的方式驗證管道的SLA指標,包括時延和抖動。具體過程如下: 1)測量服務器將其覆蓋范圍內的接入設備分為若干組,每組N臺接入設備(N的具體取值視網絡條件和服務器處理性能而定)。 2)測量服務器發(fā)送N條測量流量,一條測量流量對應一臺接入設備的一個業(yè)務等級,記錄該N條流量的時延和抖動指標。 3)測量服務器重新發(fā)送N條測量流量,對應步驟2)中同一組接入設備的另一個業(yè)務等級,記錄該N條流量的時延和抖動指標,直至遍歷該組接入設備所有業(yè)務等級為止。 4)測量服務器對另一組接入設備重復步驟2)—步驟3)的測量操作,并記錄相應的時延和抖動指標,直至遍歷其覆蓋范圍內所有接入設備為止。 5)若時延和抖動指標無異常,則記錄測量日志;否則發(fā)出告警,觸發(fā)故障定位。 (2)承載網感知LTE業(yè)務并自動測量其SLA指標 LTE承載網對業(yè)務流量的感知和測量,采用被動測量方式;承載網設備通過對業(yè)務流量的識別和著色,實現對其單向SLA指標的智能測量,包括時延、丟包率和實際流量大小,如圖3所示(以下行流量為例):
感知和測量的詳細過程如下: 1)參與LTE業(yè)務感知的所有承載網設備均已預先實現納秒級的時間同步。 2)每臺承載網設備根據IP六元組(源目IP、傳輸層協(xié)議、源目端口號和DSCP(Differentiated Services Code Point,差分服務代碼點)/IPP(IP precedence,IP優(yōu)先級)值)來區(qū)分每條業(yè)務流;設備在業(yè)務側入方向對其進行著色,在網絡側僅進行區(qū)分業(yè)務流和感知業(yè)務流顏色的操作。對業(yè)務流著色主要有以下2種機制: ◆IPv4和IPv6業(yè)務報文采用統(tǒng)一的著色機制,選擇IPv4的Type of Service字段和IPv6的Traffic Class字段中的ECN(ECN:Explicit Congestion Notification,顯式擁塞通告)比特用于著色操作,采用不同數值對應不同顏色。ECN比特已在TCP控制報文中被用戶擁塞通告,因此在應用于業(yè)務報文在轉發(fā)平面的著色時,必須避免對業(yè)務流量和已有協(xié)議產生影響。 ◆IPv4和IPv6業(yè)務報文采用不同的著色機制,IPv4報文采用Flags字段中的保留比特進行著色,IPv6報文采用Flow Label字段的最后一個比特進行著色。該機制可最大限度地避免對業(yè)務流量和已有協(xié)議產生影響。 3)每臺承載網設備定義若干等長且起止時刻相同的時間窗口,每個窗口對應一個業(yè)務流量塊;相鄰窗口的業(yè)務流為不同顏色,不相鄰窗口的業(yè)務流可以為相同顏色,也可以為不同顏色。 4)每臺承載網設備分別為每個業(yè)務流塊分配一個全網唯一的序列號,所有設備相同的業(yè)務流塊對應的序列號必須保持一致。 5)每臺承載網設備通過IP FIX(IP FIX:IP flow information exchange,IP流信息交換)協(xié)議[9],將每個業(yè)務流塊的序列號、報文數、字節(jié)數及其進入和離開該設備的時刻上送中心計算服務器。 6)中心計算服務器根據每臺設備上送的同一業(yè)務流塊的相關信息,即可計算出任意2臺設備間該業(yè)務流塊的時延、丟包率和流量大小。 7)中心計算服務器統(tǒng)計多個業(yè)務流塊的SLA指標,并上送網管,統(tǒng)計顆粒度視運維需求而定。若SLA指標無異常,則網管記錄測量日志;否則網管發(fā)出告警,觸發(fā)故障定位。 (3)故障定位 當網絡性能或業(yè)務流量SLA指標出現異常時,網管發(fā)出告警,并觸發(fā)故障定位。具體流程如下: 1)網管從中心計算服務器上送的結果中定位出哪幾臺設備間的哪些流量出現SLA劣化和異常。 2)運維人員通過網管向和故障相關的設備下發(fā)命令,在相關設備間發(fā)起網絡層主動測量,測量指標包括時延、抖動和丟包率,驗證故障是否出現在網絡層。 3)若確認故障出現在網絡層,則排查鏈路、設備接口和板卡等基礎設施是否存在異常。 4)若確認網絡層無故障或故障已排除,但仍存在業(yè)務流量SLA劣化的情況,則排查相關設備的QoS配置、隊列調度情況、安全機制和軟件狀態(tài)等邏輯策略。 5 結束語 在各種業(yè)務日益融合的今天,移動互聯(lián)網和差異化的流量業(yè)務逐漸成為運營商未來重要的業(yè)務增長點;而LTE牌照的發(fā)放、LTE網絡建設及業(yè)務開放,則為運營商的產品演進和業(yè)務發(fā)展提供了新的契機,同時也給網絡運維的成本控制和高效性帶來了挑戰(zhàn)。因此,有必要在LTE承載網中引入可行有效的智能化、集約化的網絡性能測量方案,從而提高網絡運維和故障定位效率,降低運維成本,提升網絡價值。
(中國集群通信網 | 責任編輯:李俊勇) |




