熱門搜索關鍵詞: 企業寬帶 聯通企業寬帶 聯通專線 電信專線 電信光寬帶
返回 發布日期: 2018.12.24
當SD-WAN出現問題或者您懷疑它導致應用程序出現問題時,您會怎么做?當然是,排除故障。
但SD-WAN故障排除要求IT團隊非常了解他們正在處理的網絡設備、連接和拓撲,以及許多其他因素。以下是IT團隊在處理SD-WAN問題時可以遵循的一些有用的監控和實際故障排除的步驟。
SD-WAN故障排除的第一步是了解網絡是什么時候開始無法正常運行的。在大多數情況下,監控SD-WAN與監控常規網絡并沒有太大區別。物理組件通常最容易監控的:他們要么工作,要么不工作。由于抽象會使得多個網絡鏈路看起來好像是一個,因此邏輯函數可能會更具挑戰性。
監控SD-WAN
1. 事件處理。
一個好的網絡管理架構中最有用的元素是檢查來自網絡設備(包括SD-WAN設備)的事件。把事件想象成是網絡讓你知道值得注意的事情發生了。該過程不需要輪詢,并且它可以隨著網絡的增長而擴展。
與簡單網絡管理協議(SNMP)陷阱相比,我更喜歡使用syslog事件,因為它們不需要將特定的管理信息庫加載到管理系統中來查看詳細信息。IT團隊應該配置SD-WAN設備,以便將事件發送到公共事件處理系統,在那里可以存儲、關聯和操作事件。
預算受限的組織可以使用開源收集器(如syslog-ng)以及各種分析工具來總結網絡可以生成的大量事件。有預算的組織可以研究ELK堆棧 - Elasticsearch,Logstash和Kibana。如果您需要廠商支持,則可以使用廠商支持的ELK版本、設備供應商和日志處理供應商的產品。
事件處理系統應配置為在檢測到嚴重事件時自動生成故障單或向IT組織發送實時警報。所有事件都應該在每日或每周摘要中報告,以確保最終可以看到遺漏的事件 - 比如說,知道一半的冗余設計不起作用是件好事。
2. 活動鏈路測試。
SD-WAN使用多鏈路提供可靠的端到端服務。活動鏈路監控允許系統驗證SD-WAN在提供所需可靠性方面成功與否。可能需要多次測試來驗證不同類型流量的路徑,例如實時數據與批量數據。隨著SD-WAN站點數量的增加,易于部署對于成功實施至關重要。
確保將測試配置為模擬實際應用程序流量,包括數據包大小、傳輸速率和服務質量標記。活動鏈路測試的一個優點是,它可以在沒有應用程序流量時檢測正常工作時間之外的問題。活動鏈路測試模擬真實的應用流量并測試整個端到端系統,包括鏈路選擇。
IT團隊可以在概念驗證評估期間通過禁用每個WAN鏈接并監控測試結果如何變化來使用此類測試。這對于確定廉價寬帶鏈路在低延遲路徑關閉時處理高優先級或實時流量的能力特別有用。將測試配置為始終運行,這樣您還可以了解應用程序在一天中的不同時間運行的可能性。您可能還想知道其他應用程序運行時的性能級別 - 如備份或數據庫同步,或寬帶網絡繁忙時。
3. 物理狀態。
SD-WAN設備通常基于具有內部CPU、內存、接口、電源和冷卻的x86系統。網絡事件(通常是syslog)應該報告這些組件的問題。使用SNMP進行監控可以提供有關這些資源使用的額外數據,并提供以下問題的答案:
● 每條路徑上使用多少個緩沖區?
● CPU是否在一天中的關鍵時刻處于飽和狀態?
● 電源是否正常工作,或者AC主輸入波動是否超出了電源可以處理的規格?
緩沖等參數的默認配置通常是正確的,但有時您需要能夠修改緩沖區的數量以適應應用程序的功能特性,例如處理大量非常小的數據包。確保可以根據需要修改隊列深度。
您應該驗證SD-WAN控制器在物理鏈路出現問題時提供警報和報告。它應該能夠檢測到由于擁塞和雙工不匹配導致的振蕩鏈路、接口錯誤、數據包丟失,雙工不匹配仍然是一個常見的問題,因此盡可能使用自動協商。使用每日或每周報告來確定可能被忽略的警報問題。
4. 拓撲圖。
在進行故障排除時,了解拓撲很重要,但手動更新拓撲圖是一個耗時且容易出錯的過程。尋找SD-WAN控制系統,以提供物理和邏輯拓撲的動態映射。基線就像SD-WAN物理拓撲的真實網絡源,了解實際狀態和期望狀態之間的差異可以使SD-WAN故障排除更加容易。
確定問題
解決網絡問題的關鍵是有條不紊。從一端開始,向另一端努力,或著采用分治策略。根據癥狀確定可能存在的問題類型。開放系統互連模型可以方便地確定問題的類型并在正確的方向上直接排除故障,例如:
● 物理問題,如失效的界面;
● 鏈接問題,如雙工不匹配;
● 路由問題,例如某些目的地可達,且單跳測試成功;
● 應用程序問題,如防火墻或最大傳輸單元(MTU)不匹配。
如果某些數據通過了測試,則較低級別的功能就可能正常工作,因此您可以將工作重點放在更高級別上。
SD-WAN故障排除步驟
對問題的分析通常包含以下幾點:
● 驗證SD-WAN節點的基本功能。此步驟檢查CPU、內存和接口連接。節點應該能夠與控制器通信并下載其配置。
● 檢查基本接口功能。所需的接口應該啟動并與鏈路另一端的設備通信。應該與SD-WAN控制器建立基本連接,以便下載其配置。
● 驗證VPN功能。 SD-WAN產品在物理拓撲之上創建邏輯VPN覆蓋。您需要了解VPN的加密過程是如何工作、如何失敗以及如何驗證它是否正常工作的。
● 與整體路由架構集成。 SD-WAN設備能夠使多個鏈路發揮作用,就像它們是一個鏈路一樣。每個站點的網絡可達性需要在不影響整體路由架構的情況下與其他站點進行通信 - 即,沒有路由黑洞、路由環路或不可達的子網。您需要了解路由分發的工作原理以及如何對其進行故障排除。
● 驗證轉發策略。數據包是否在SD-WAN設備之間采用了合適的路徑? SD-WAN設備測量它們之間的延遲、數據包丟失和抖動,并使用策略來確定每個應用程序應使用哪個鏈路。當一個應用程序的鏈路失敗 - 或者它超出該流量類型的規范時 - 流量將被移動到另一個鏈路,這可能會影響移動的應用程序,以及使用仍在運行的鏈路的應用程序。這種分析可能需要一些低級命令來訪問詳細數據。
當您需要低級別詳細信息時,命令行界面非常有用。這些命令將包含用于檢查系統狀態和測試命令的show命令,例如ping和traceroute。了解如何將它們應用于單個鏈路以及應用程序流的測試。
可能需要數據包捕獲技術來診斷應用程序是否存在其他方法無法理解的問題。 Wireshark的TCP序列空間繪圖功能是一個依賴于數據包捕獲文件的有用工具。
WAN運營商 - 鏈路 - 問題
您需要了解丟包、延遲和抖動的鏈路特性。它們是否符合您定義的策略?鏈路是否根據鏈路提供者定義的服務級別協議(SLA)執行? MPLS鏈路可能有SLA,而廉價的寬帶鏈路則沒有。
這里可能需要采用分治法。有選擇地一次只啟用一個物理鏈路,并驗證鏈路是否正常工作。然后,嘗試鏈路組合,最終得到所有鏈路運行的點。不要忘記檢查策略是否正確。鏈路特征可能會發生變化,導致這些鏈路對任何策略都是不可接受的。
生成一個關于鏈路特征和使用情況的每周報告是一個好方法。對于大型SD-WAN實施,由于報告本身太大而無法使用,所以要過濾結果,僅顯示那些特征與任何策略都不匹配的鏈路。
檢查MTU不匹配。使用小數據包的應用程序可以工作,但如果需要更大的數據包則不行。 ping和終端連接成功,但文件傳輸、備份和數據庫同步失敗,這時需要考慮MTU問題。
雙工不匹配。檢查接口統計信息以確定是否存在雙工不匹配,即使您無法檢查以太網鏈路上每個接口的配置。全雙工接口將顯示收到的runt數據包,半雙工接口將顯示延遲沖突。這些計數器應包含較小的值,如果存在不匹配,則會在活動鏈路上增加。
結論
故障排除一半是藝術,一半是科學。我建議可以學習特定SD-WAN產品的工作原理以及在初始概念驗證階段存在哪些SD-WAN故障排除工具。可以創建一個簡單的文本文檔,描述針對特定SD-WAN供應商采取的基本步驟。當網絡出現問題時,SD-WAN的故障排除過程就能夠得到簡化。
聯通企業寬帶業務是北京聯通針對中小企業網絡使用的技術特點,向中小企業用戶提供的普通辦公上網服務,沒有太多專業網絡應用,對上傳需求不太高。10M-100M帶寬基本滿足普通企業的辦公上網需要。
電信企業寬帶業務是北京電信新近推出的樓宇寬帶、樓宇專線、樂享專線等產品的統稱,是針對中小企業網絡使用的技術特點,為樓宇內中小企業用戶提供的普通辦公上網服務。光纖10M-100M帶寬基本滿足普通企業的辦公上網需要。
互聯網專線是基于CHINA169本地網,采用最新的寬帶接入技術,為客戶提供從64Kbps到GE級的多種速率實時在線的互聯網接入產品,包括黃金、紫金、樓宇專線三類產品,其中,黃金產品主要面向中、高端客戶,紫金產品面向價格敏感客戶及反搶客戶,樓宇專線面向商務樓宇中的中小企業客戶。
電信商務專線是中國電信為高品質用戶提供的上網技術解決方案:各企業用戶節點采用公網或私網IP地址,以靜態路由方式接入到中國電信骨干互聯網Chinanet。是各類企業用戶專業和高品質的上網解決方式。
合作雙方將在項目內合作,共同建設寬帶網絡及附加產品服務,同時雙方將在推廣寫字樓、社區、企業信息化上開展合作,包括市場推廣活動、公共關系活動等保持信息溝通和協作。