本文來(lái)自微信公眾號(hào)“twt企業(yè)IT社區(qū)”,作者/珺祎,某國(guó)有銀行系統(tǒng)架構(gòu)師。
一、前言
企業(yè)數(shù)字化轉(zhuǎn)型背景下,對(duì)內(nèi)部運(yùn)維一體化、自動(dòng)化、智能化的建設(shè)要求也相應(yīng)提高。其中,對(duì)不同類型、不同品牌、不同架構(gòu)的存儲(chǔ)實(shí)施全面整體的管理是企業(yè)運(yùn)維質(zhì)效的重要方面,是保障業(yè)務(wù)穩(wěn)定運(yùn)行、確保企業(yè)數(shù)字化轉(zhuǎn)型順利的重要一環(huán)。
本文首先通過(guò)對(duì)目前企業(yè)實(shí)施存儲(chǔ)全面管理體系過(guò)程中存在的問(wèn)題進(jìn)行說(shuō)明,繼而對(duì)構(gòu)建存儲(chǔ)全面整體的管理體系建設(shè)以及建設(shè)的價(jià)值進(jìn)行分析,從而為企業(yè)進(jìn)行全面的存儲(chǔ)管理體系提供理論指導(dǎo)。
二、存儲(chǔ)管理的現(xiàn)狀及全面管理的必要性和挑戰(zhàn)
隨著分布式存儲(chǔ)、超融合、云原生等技術(shù)的不斷加速應(yīng)用,IT架構(gòu)日益復(fù)雜化,引入的存儲(chǔ)管理平臺(tái)和工具越來(lái)越多,傳統(tǒng)存儲(chǔ)的管理模式已經(jīng)無(wú)法適應(yīng)企業(yè)運(yùn)維轉(zhuǎn)型的創(chuàng)新發(fā)展。在此背景下,實(shí)施全面整體的存儲(chǔ)管理體系建設(shè),實(shí)現(xiàn)存儲(chǔ)的統(tǒng)一監(jiān)控、容量管理、故障管理、災(zāi)難恢復(fù)管理、性能管理能力,從而提高整體生產(chǎn)系統(tǒng)的運(yùn)維效率,是運(yùn)維團(tuán)隊(duì)面臨的挑戰(zhàn)。下面以作者所在金融機(jī)構(gòu)為例,列舉當(dāng)前存儲(chǔ)全面管理存在的幾點(diǎn)問(wèn)題:
1.新型分布式架構(gòu)的引入,需要和傳統(tǒng)集中式模式有機(jī)組合
隨著業(yè)務(wù)發(fā)展,企業(yè)用戶對(duì)業(yè)務(wù)的規(guī)模、靈活性、擴(kuò)展性都提出了更高的要求。金融機(jī)構(gòu)傳統(tǒng)的“小型機(jī)+SAN存儲(chǔ)”模式無(wú)法滿足業(yè)務(wù)發(fā)展。與此同時(shí),在存儲(chǔ)領(lǐng)域中,超融合、分布式、全閃存等新一代存儲(chǔ)快速增長(zhǎng)并已經(jīng)成為業(yè)界主流,“分布式存儲(chǔ)+超融合”正在逐步推廣應(yīng)用。面對(duì)不同技術(shù)棧、不同架構(gòu)的存儲(chǔ),大部分情況下需要按照不同品牌和類型進(jìn)行管理,無(wú)法有效和當(dāng)前傳統(tǒng)SAN存儲(chǔ)形成統(tǒng)一管理。
2.多架構(gòu)存儲(chǔ)共存現(xiàn)狀,急需提升敏捷化運(yùn)營(yíng)能力
面對(duì)集中式和分布式存儲(chǔ)共存的現(xiàn)狀,當(dāng)某些業(yè)務(wù)出現(xiàn)訪問(wèn)超時(shí)等問(wèn)題,通常需要網(wǎng)絡(luò)、存儲(chǔ)、數(shù)據(jù)庫(kù)多條線同時(shí)定位,特別是對(duì)于偶發(fā)性的超時(shí)類問(wèn)題,交易過(guò)程涉及的應(yīng)用系統(tǒng)多、路徑長(zhǎng),需要從存儲(chǔ)層面和其他硬件層智能化聯(lián)合運(yùn)維,這就對(duì)各存儲(chǔ)系統(tǒng)間數(shù)據(jù)互通、基礎(chǔ)設(shè)施的快速交付、敏捷投產(chǎn)上線和高效轉(zhuǎn)化產(chǎn)出提出了新的訴求。
3.存儲(chǔ)的多架構(gòu)模式存在散、亂情況,高可用性仍有待提升
在分布式存儲(chǔ)和微服務(wù)架構(gòu)下,應(yīng)用和技術(shù)組件類型和數(shù)量繁多,運(yùn)維顆粒度更加細(xì)微,架構(gòu)關(guān)聯(lián)關(guān)系復(fù)雜。生產(chǎn)事件精準(zhǔn)定位和快速恢復(fù)的難度增大,給筑牢安全生產(chǎn)底線帶來(lái)了巨大挑戰(zhàn)。同時(shí),日趨嚴(yán)格的監(jiān)管形勢(shì)也對(duì)數(shù)據(jù)中心的業(yè)務(wù)連續(xù)性管理和網(wǎng)絡(luò)安全防護(hù)能力都對(duì)存儲(chǔ)的整體管理提出了更高要求。
三、探索存儲(chǔ)全面一體化管理的實(shí)施路徑
針對(duì)上述三方面痛點(diǎn)問(wèn)題,探索如何從存儲(chǔ)的統(tǒng)一監(jiān)控、容量和性能管理、災(zāi)難恢復(fù)管理方面,實(shí)施全面統(tǒng)一的管理,提升企業(yè)內(nèi)部運(yùn)維智能化。
1.以CMDB為原型,打造多源統(tǒng)一的存儲(chǔ)整體監(jiān)控體系
當(dāng)前階段,企業(yè)內(nèi)部大多都是集中式和分布式存儲(chǔ)并存的現(xiàn)狀,在監(jiān)控體系中,全面適配分布式池化存儲(chǔ)存在一定困難,與此同時(shí),考慮到各類系統(tǒng)的高可用性,分布式存儲(chǔ)系統(tǒng)還處在持續(xù)進(jìn)化的過(guò)程中,穩(wěn)定性和可靠性還需要進(jìn)一步完善。所以,現(xiàn)階段傳統(tǒng)存儲(chǔ)所支撐的“穩(wěn)態(tài)”業(yè)務(wù)和以分布式存儲(chǔ)為代表的存儲(chǔ)架構(gòu)所支撐的新型“敏態(tài)”業(yè)務(wù)將互為區(qū)分、相互融合的共生局面。
針對(duì)線上業(yè)務(wù)迅猛發(fā)展,業(yè)務(wù)新老架構(gòu)并行的情況,以企業(yè)內(nèi)部存儲(chǔ)的配置管理庫(kù)(CMDB)資源作為關(guān)系數(shù)據(jù)、從全局角度,構(gòu)建可視化、標(biāo)簽化的存儲(chǔ)系統(tǒng)全貌特征,從傳統(tǒng)集中式存儲(chǔ)、分布式存儲(chǔ)、虛擬化及私有云等環(huán)境中實(shí)時(shí)、完整獲取監(jiān)控?cái)?shù)據(jù),從而解析建立實(shí)時(shí)統(tǒng)一的存儲(chǔ)管理視圖,展現(xiàn)出存儲(chǔ)的架構(gòu)模式、依賴關(guān)系、運(yùn)行質(zhì)量、發(fā)生的告警,實(shí)現(xiàn)對(duì)不同存儲(chǔ)的容量性能實(shí)施全面監(jiān)控、實(shí)時(shí)故障告警、快速的故障定位。
2.基于預(yù)測(cè)性算法,構(gòu)建智能化容量及性能管理模型
在傳統(tǒng)存儲(chǔ)容量和性能指標(biāo)管理體系中,往往采用人工經(jīng)驗(yàn)的固定閾值方式,通過(guò)事后預(yù)警來(lái)達(dá)到運(yùn)維目標(biāo),使得業(yè)務(wù)系統(tǒng)故障持續(xù)時(shí)間相對(duì)較長(zhǎng)。但是對(duì)業(yè)務(wù)敏捷交付、運(yùn)維靈活性和可持續(xù)性而言,這種監(jiān)控方式無(wú)法提供快速高效的故障診斷能力。
尤其是目前分布式存儲(chǔ)的架構(gòu)中,通常是將SSD固態(tài)盤通過(guò)軟件定義方式整合為存儲(chǔ)池,而SSD固態(tài)盤為存儲(chǔ)系統(tǒng)提供了數(shù)倍于傳統(tǒng)HDD磁盤的高I/O性能,通過(guò)智能化異常指標(biāo)的檢測(cè)和趨勢(shì)預(yù)測(cè)機(jī)制,通過(guò)存儲(chǔ)基線算法、指標(biāo)預(yù)測(cè)算法,實(shí)現(xiàn)指標(biāo)監(jiān)控智能化管理及事前預(yù)測(cè)監(jiān)控,并從各種不同的數(shù)據(jù)維度進(jìn)行匯聚分析,從而構(gòu)建高可用、高容量、可擴(kuò)展、云適配、接口標(biāo)準(zhǔn)、管理便利的容量及性能管理體系。
3.針對(duì)不同業(yè)務(wù)場(chǎng)景,形成存儲(chǔ)級(jí)災(zāi)難恢復(fù)管理體系
1)OLTP類業(yè)務(wù)場(chǎng)景,實(shí)施存儲(chǔ)級(jí)熱備策略。
對(duì)于核心生產(chǎn)系統(tǒng)中的賬務(wù)類交易,尤其是在線數(shù)據(jù)庫(kù)所運(yùn)行的存儲(chǔ)環(huán)境,建設(shè)同等規(guī)模備份存儲(chǔ)集群,應(yīng)用數(shù)據(jù)實(shí)時(shí)在存儲(chǔ)集群中同步,保持備份存儲(chǔ)與當(dāng)前應(yīng)用系統(tǒng)所在存儲(chǔ)的數(shù)據(jù)同步。一旦主存儲(chǔ)出現(xiàn)故障,在規(guī)定的RTO時(shí)間內(nèi)迅速切換至雙活存儲(chǔ),保障熱點(diǎn)數(shù)據(jù)的一致性。
2)OLAP類業(yè)務(wù)場(chǎng)景,實(shí)施存儲(chǔ)級(jí)溫備策略。
對(duì)于某些數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖類的離線數(shù)據(jù)應(yīng)用,建設(shè)同等或較小規(guī)模集群,主集群數(shù)據(jù)定期同步至備份集群。主集群出現(xiàn)故障,使用定期備份數(shù)據(jù),在規(guī)定的RTO時(shí)間以內(nèi)恢復(fù)數(shù)據(jù)和業(yè)務(wù)。
3)異構(gòu)平臺(tái)類場(chǎng)景,實(shí)施存儲(chǔ)級(jí)冷備策略。
對(duì)于某些異構(gòu)類和不同品牌的存儲(chǔ),不建設(shè)備份集群,以低成本方式將數(shù)據(jù)通過(guò)CDP工具,以文件形式備份到不同存儲(chǔ)中,集群故障后,修復(fù)或新建集群,在規(guī)定的RTO時(shí)間恢復(fù)數(shù)據(jù)和業(yè)務(wù)。
不同企業(yè)可根據(jù)自身不同應(yīng)用及組件使用情況,選擇不同的備份策略。一般建議使用溫備/熱備為主,冷備為輔的策略選擇。對(duì)于賬務(wù)類等支撐高并發(fā)實(shí)時(shí)查詢的場(chǎng)景,使用熱備方案實(shí)現(xiàn)實(shí)時(shí)/準(zhǔn)實(shí)時(shí)同步;對(duì)于數(shù)據(jù)倉(cāng)庫(kù)等應(yīng)用對(duì)應(yīng)的數(shù)據(jù),使用溫備,一旦需要進(jìn)行故障切換,可滿足業(yè)務(wù)所需的T+1數(shù)據(jù)支持,不對(duì)業(yè)務(wù)造成損失和影響。而涉及跨存儲(chǔ)平臺(tái)、跨業(yè)務(wù)區(qū)域的場(chǎng)景,則采取數(shù)據(jù)冷備的方式定期進(jìn)行數(shù)據(jù)備份,最大程度降低數(shù)據(jù)損失。
四、全面存儲(chǔ)管理的價(jià)值
通過(guò)對(duì)存儲(chǔ)全面一體化的管理,同時(shí)將存儲(chǔ)納入企業(yè)一體化運(yùn)維管理中,通過(guò)對(duì)運(yùn)維數(shù)據(jù)進(jìn)行統(tǒng)一的管理來(lái)實(shí)現(xiàn)運(yùn)維系統(tǒng)和工具的大數(shù)據(jù)整合,縮短問(wèn)題發(fā)現(xiàn)和處置的時(shí)間,使運(yùn)維的工作效率得到提升,提升業(yè)務(wù)價(jià)值,為企業(yè)創(chuàng)造更多的價(jià)值,實(shí)現(xiàn)安全高效有序的可持續(xù)發(fā)展。