當一個數據中心的規模非常大,面臨的挑戰和問題也比較超前,很多在小環境小體系下不是問題的問題在這樣的規模下也就凸顯出來了,所以做好大型數據中心的運維工作,需要對整個數據中心技術體系的系統學習就要花費比較長的時間,只有對這個數據中心整體非常瞭解,才能有針對性地制定一些運維方案,甚至可以二次開發一些監控運維軟件,對整個數據中心進行有效管理與監控,提升整個數據中心的運行效率、減少故障的發生,從而將運維工作推向新的高度。
一個大型的數據中心內部往往都包含了很多小系統,運維工作都是圍繞著這些具體的應用系統展開的,具體運維方法的可以分為基礎運維管理、日常業務運維、網絡、服務器、存儲、安全六大部分。
首先從數據中心的基礎運維管理方面來說,則主要有硬件配置管理、可維護性優化、監控、報警處理、自動化運維、斷網,斷電、機房容災等運維工作。硬件配置管理包含機櫃裡每台服務器的型號和硬件配置,並清楚是哪些業務系統在使用這些服務器。即便是虛擬化運行環境,也需要知道這些虛機都在哪些物理機組成的資源池中流動。對數據中心物理機和虛擬機做好監控與報警處理,以便能夠在故障發生的第一時間知曉問題,往往一次大的故障都是從開始的一點小故障逐漸擴展最終引發整個大系統的崩潰的,所以在出現一些小的異常時一定要及時消除,而這些異常就要靠完善的監控和報警系統來檢測。
從數據中心的日常業務運維方面考慮,則主要有資源、機器分配、資源使用、網絡吞吐、故障恢復、備份應用,集群搭建、流量,壓力,遷移擴容,升級、上下級業務關聯情況、資源利用率、異常處理、應急預案等等。這些日常運維工作實際上要花費大量的人力和時間,一個數據中心能夠長久安全穩定運行,就是靠這些日常的工作積累,只有平時注意這些細微的變化,才能不斷優化。壓力測試、軟件升級、業務部署、異常處理等幾乎成為了運維工作的日常必修課,只有將這些工作做好,才能避免出現大的故障,並能夠快速部署新的業務,根據資源使用情況及時擴容設備。
從數據中心網絡方面考慮,則主要有網絡硬件設備、ACL、OSPF、LACP、VIP、流量、負載均衡、二三四七層情況、網絡監控、萬兆板卡、核心交換等。網絡是數據中心的重要組成部分,是一切工作運行的基本保證,沒有網絡數據中心就無法運轉起來,所以保證網絡穩定是數據中心運維工作中的重中之重。這裡主要關注的就是網絡的硬件問題,核心設備CPU 使用率,端口流量,ACL部署還有流量監控等情況。