【中國(guó)傳動(dòng)網(wǎng) 企業(yè)動(dòng)態(tài)】 無(wú)人期盼災(zāi)難的來(lái)臨,但是災(zāi)難如守信的信使一般總是遵守墨菲定律,他偏愛(ài)在你最不愿意他光臨的雨夜敲門(mén)。
因此我們有必要為時(shí)間還來(lái)得及的時(shí)候,安排好一切。災(zāi)難恢復(fù)計(jì)劃Disasterrecoveryplan以簡(jiǎn)單描述成DRP就是幫助一個(gè)數(shù)據(jù)中心領(lǐng)導(dǎo)人或組織,在運(yùn)營(yíng)之初就為災(zāi)難做好準(zhǔn)備計(jì)劃,這種計(jì)劃不能避免災(zāi)難的發(fā)生,但是極為有助于大幅減少災(zāi)難發(fā)生后的產(chǎn)生的影響和提高在災(zāi)難發(fā)生過(guò)程中,數(shù)據(jù)中心業(yè)務(wù)持續(xù)運(yùn)行不受影響。
DRP之緣起
自2017年以來(lái),我國(guó)陸續(xù)建成了一批超大型數(shù)據(jù)中心,面積在一萬(wàn)平米以上或者機(jī)柜數(shù)量在2000機(jī)柜以上。這些數(shù)據(jù)中心陸續(xù)投入運(yùn)行以后,可以說(shuō)是新聞迭出,被光纜施工、水患災(zāi)難甚至是市政電力系統(tǒng)的升級(jí)所影響甚至停業(yè)的數(shù)據(jù)中心案例層出不窮,我們數(shù)據(jù)中心運(yùn)營(yíng)的從業(yè)者需要對(duì)災(zāi)難加以評(píng)估、準(zhǔn)備和計(jì)劃,一切尚不晚,而縱觀我們多數(shù)的數(shù)據(jù)中心運(yùn)營(yíng)者甚至連DRP的概念都還沒(méi)有形成,因此本文力圖在這方面給出一定的提醒和參考。
可能會(huì)有人對(duì)DRP與EOP兩個(gè)計(jì)劃的概念混淆不清EOP(EmergencyOperatingProcedure)應(yīng)急運(yùn)行計(jì)劃,是對(duì)已知的、已經(jīng)驗(yàn)證的災(zāi)難加以演練并制定已經(jīng)計(jì)劃,而DRP則更多關(guān)注災(zāi)難已經(jīng)發(fā)生,我們應(yīng)該如何組織自救、恢復(fù)生產(chǎn),確保在在災(zāi)難發(fā)生過(guò)程中生產(chǎn)如何安全、持續(xù)的運(yùn)行。
那么我們將在多大的范圍或多高的位置討論這個(gè)計(jì)劃呢?一個(gè)具體的數(shù)據(jù)中心場(chǎng)地,而不是多個(gè),因?yàn)槊恳粋€(gè)數(shù)據(jù)中心場(chǎng)地都是不一樣的,恢復(fù)計(jì)劃不能簡(jiǎn)單套用。災(zāi)難恢復(fù)計(jì)劃的最高負(fù)責(zé)人又是誰(shuí)呢?災(zāi)難恢復(fù)小組組長(zhǎng),請(qǐng)不要誤會(huì)這個(gè)組長(zhǎng)是一個(gè)常設(shè)的小職務(wù),他通常應(yīng)該是這個(gè)場(chǎng)站的運(yùn)維經(jīng)理,在國(guó)內(nèi)可能是一個(gè)企業(yè)的運(yùn)維總監(jiān)或者基礎(chǔ)設(shè)施總監(jiān),他日常的職務(wù)可能主管多個(gè)支持部門(mén),包括物理設(shè)施運(yùn)維部、IT設(shè)施運(yùn)營(yíng)部、工程建設(shè)部等。
災(zāi)難恢復(fù)小組組長(zhǎng)責(zé)任重大(出于某種考慮,可以再設(shè)置副組長(zhǎng)一名),他決定是否啟動(dòng)或結(jié)束災(zāi)難恢復(fù)計(jì)劃。
一個(gè)災(zāi)難恢復(fù)計(jì)劃的模板應(yīng)該包括如下信息:
災(zāi)難恢復(fù)計(jì)劃本身的信息必須由DRP恢復(fù)小組組長(zhǎng)任命的現(xiàn)場(chǎng)經(jīng)理及時(shí)更新,當(dāng)現(xiàn)場(chǎng)經(jīng)理發(fā)現(xiàn)任何不正確、丟失應(yīng)立即通知現(xiàn)場(chǎng)相關(guān)的管理人員加以糾正直至信息完全準(zhǔn)備并記錄在案。
我們還需要對(duì)災(zāi)難這個(gè)詞本身進(jìn)行一個(gè)定義,這里的災(zāi)難指的是導(dǎo)致數(shù)據(jù)中心的服務(wù)遭受損失,災(zāi)難的程度可以分級(jí),是數(shù)據(jù)中心服務(wù)減少了?還是根本停止了?以及這個(gè)災(zāi)難可能導(dǎo)致的后果是什么?比如火災(zāi)、水患、恐怖襲擊、人為錯(cuò)誤還是軟硬件故障等等。
一個(gè)災(zāi)難恢復(fù)計(jì)劃的成功實(shí)施,是需要一個(gè)數(shù)據(jù)中心站場(chǎng)內(nèi)的各個(gè)部門(mén)相互協(xié)同的,一個(gè)災(zāi)難恢復(fù)小組都有哪些人員或組織組成呢?小組成員通常包含以下幾個(gè)部門(mén):首先是災(zāi)難恢復(fù)小組組長(zhǎng),通常由場(chǎng)地的運(yùn)維經(jīng)理(總監(jiān)級(jí))擔(dān)任,在國(guó)內(nèi)也許是這個(gè)數(shù)據(jù)中心的總經(jīng)理;其次是現(xiàn)場(chǎng)運(yùn)維組長(zhǎng),國(guó)內(nèi)應(yīng)該是運(yùn)維經(jīng)理,網(wǎng)絡(luò)小組組長(zhǎng)(國(guó)內(nèi)為IT運(yùn)維經(jīng)理);物理設(shè)施運(yùn)維組長(zhǎng)(國(guó)內(nèi)是主管機(jī)電系統(tǒng)的運(yùn)維經(jīng)理);總監(jiān)(國(guó)內(nèi)則應(yīng)該是集團(tuán)公司的COO或者IDC公司的COO);異地備份人員(同樣包括基礎(chǔ)設(shè)施和IT)。
從上面的組織配置我們應(yīng)該看出,DRP計(jì)劃從組織結(jié)構(gòu)的建立上就是一個(gè)不依賴任何單人或單體組織的計(jì)劃,那從組織結(jié)構(gòu)上強(qiáng)調(diào)雙冗余或雙活的機(jī)制,強(qiáng)調(diào)異地備份和組織鏡像。
DRP大軍的組建
現(xiàn)在我們有了一個(gè)災(zāi)難管理團(tuán)隊(duì)的成員,下面一步則是根據(jù)不同的工作任務(wù),分成若干的團(tuán)隊(duì)并定義每個(gè)小組成員的工作職責(zé)。
01
災(zāi)難管理團(tuán)隊(duì)
DisasterManagementTeam
(工作地點(diǎn)應(yīng)設(shè)置在數(shù)據(jù)中心的指揮中心或ECC)
災(zāi)難管理團(tuán)隊(duì)的主要職責(zé):
1)災(zāi)難管理團(tuán)隊(duì)負(fù)責(zé)提供數(shù)據(jù)中心恢復(fù)操作的總體方向;
2)負(fù)責(zé)確立損壞程度和激活恢復(fù)組織,負(fù)責(zé)通知各團(tuán)隊(duì)領(lǐng)導(dǎo)人;
3)監(jiān)測(cè)和指導(dǎo)恢復(fù)工作;
4)負(fù)責(zé)決定是否需要引入災(zāi)難恢復(fù)程序。如果決定這么做,那么在程序所定義的實(shí)施過(guò)程中,災(zāi)難管理小組所作出的決定將取代任何現(xiàn)有的行政管理機(jī)構(gòu)。
這里面引用一個(gè)香港著名電影《寒戰(zhàn)》里面的案例,在電影中香港可能受到了恐怖襲擊的潛在威脅,災(zāi)難恢復(fù)計(jì)劃由管理小組的幾位成員投票決定啟動(dòng),災(zāi)難管理小組有權(quán)在程序運(yùn)行期間,任免警員、調(diào)用特警、動(dòng)用后備資源、管理公共信息發(fā)布等等。
災(zāi)難管理團(tuán)隊(duì)的職責(zé)分解如下:
1)為最終用戶提供可以量化、可以識(shí)別的業(yè)務(wù)服務(wù)水平說(shuō)明文件,并在文件中說(shuō)明災(zāi)難管理計(jì)劃中管理團(tuán)隊(duì)所肩負(fù)的啟動(dòng)災(zāi)難恢復(fù)計(jì)劃的職責(zé)和可能的處理;
2)管理所有救援團(tuán)隊(duì)、聯(lián)系公司總部、聯(lián)系用戶;
3)在災(zāi)難恢復(fù)計(jì)劃執(zhí)行過(guò)程中保持隨時(shí)審計(jì)、安全控制;
4)控制和記錄緊急費(fèi)用和開(kāi)支。
災(zāi)難管理團(tuán)隊(duì)的具體責(zé)任如下:
1)評(píng)估問(wèn)題的程度和潛在的后果;
2)通知高級(jí)管理人員的災(zāi)難、恢復(fù)進(jìn)展和問(wèn)題;
3)啟動(dòng)災(zāi)難恢復(fù)程序;
4)協(xié)調(diào)恢復(fù)操作;
5)監(jiān)控恢復(fù)操作,并確保計(jì)劃的進(jìn)度;
6)記錄恢復(fù)操作;
7)用戶管理;
8)監(jiān)督授權(quán)支出的其它團(tuán)隊(duì);
9)記錄緊急非凡的成本和支出;
10)對(duì)保險(xiǎn)索賠的損害進(jìn)行了詳細(xì)會(huì)計(jì)處理:
①確保在數(shù)據(jù)中心恢復(fù)運(yùn)營(yíng)是根據(jù)充分的審計(jì)控制,記錄提供可靠性和一致性;
②監(jiān)控?cái)?shù)據(jù)中心的安全標(biāo)準(zhǔn);
③確保適當(dāng)?shù)陌才?,以恢?fù)網(wǎng)站,并恢復(fù)在緊急模式處理允許的時(shí)間范圍內(nèi)的現(xiàn)狀;
④宣布數(shù)據(jù)中心恢復(fù)時(shí),災(zāi)難恢復(fù)計(jì)劃不再生效。
02
運(yùn)營(yíng)團(tuán)隊(duì)
OperationsTeam
運(yùn)營(yíng)團(tuán)隊(duì)的主要職責(zé):
1)負(fù)責(zé)數(shù)據(jù)中心環(huán)境和IT設(shè)施日常運(yùn)營(yíng)工作;
2)在災(zāi)難恢復(fù)計(jì)劃中承擔(dān)具體操作任務(wù)。
運(yùn)營(yíng)團(tuán)隊(duì)的職責(zé)分解如下:
1)負(fù)責(zé)所有歷史的和當(dāng)前的數(shù)據(jù)中心環(huán)境所產(chǎn)生的數(shù)據(jù)和系統(tǒng),并對(duì)系統(tǒng)進(jìn)行更新,以保持其是最新的版本;
2)按照滿足最終客戶定義要求,為數(shù)據(jù)中心的恢復(fù)、數(shù)據(jù)控制、安全防范、磁帶或介質(zhì)存放提供管理和配置人員;
3)支持所有環(huán)境關(guān)鍵應(yīng)用所需的可操作版本,以滿足最低運(yùn)行要求。
運(yùn)營(yíng)團(tuán)隊(duì)的具體職責(zé)如下:
1)為數(shù)據(jù)中心關(guān)鍵機(jī)電系統(tǒng)提供持續(xù)技術(shù)支持;
2)與IT網(wǎng)絡(luò)團(tuán)隊(duì)合作,恢復(fù)本地和廣域數(shù)據(jù)通信服務(wù),以滿足最低的處理要求;
3)為異地存儲(chǔ)獲得所有必要的備份;
4)機(jī)電系統(tǒng)重啟動(dòng)服務(wù);
5)重新建立軟件庫(kù)和數(shù)據(jù)庫(kù),及時(shí)備份最后版本;
6)為機(jī)電系統(tǒng)提供足夠的日常操作人員;
7)建立安全防范平臺(tái)和數(shù)據(jù)中心控制設(shè)施;
8)對(duì)設(shè)施進(jìn)行日常管理,以達(dá)到客戶的要求;
9)安排采購(gòu)和提供IT設(shè)備必要的日常耗材;
10)確保所有文件的標(biāo)準(zhǔn)化、操作記錄、維護(hù)記錄、應(yīng)用程序都存放在一個(gè)安全的環(huán)境區(qū)域,并配備必要的重建設(shè)施。
03
網(wǎng)絡(luò)團(tuán)隊(duì)
NetworksTeam
網(wǎng)絡(luò)團(tuán)隊(duì)的主要任務(wù):
負(fù)責(zé)所有數(shù)據(jù)中心的網(wǎng)絡(luò)系統(tǒng)和通訊。
網(wǎng)絡(luò)團(tuán)隊(duì)的職責(zé)分解:
1)為關(guān)鍵客戶安排所有新的本地或廣域網(wǎng)的通信設(shè)施和網(wǎng)絡(luò)搭建;
2)如果需要的話,為客戶提供基于網(wǎng)絡(luò)的語(yǔ)音通訊服務(wù)或其他語(yǔ)音通信服務(wù)。
網(wǎng)絡(luò)團(tuán)隊(duì)的具體職責(zé):
1)評(píng)估語(yǔ)音和網(wǎng)絡(luò)通訊服務(wù),并負(fù)責(zé)與電信運(yùn)營(yíng)商協(xié)調(diào)備用通信措施;
2)負(fù)責(zé)重建網(wǎng)絡(luò)設(shè)施所需的一切操作;
3)與用戶定義在網(wǎng)絡(luò)恢復(fù)中的優(yōu)先事項(xiàng);
4)與要求訂購(gòu)語(yǔ)音和網(wǎng)絡(luò)通信設(shè)備;
5)提供必要的網(wǎng)絡(luò)文檔;
6)提供持續(xù)支持業(yè)務(wù)的網(wǎng)絡(luò)設(shè)備;
7)災(zāi)難恢復(fù)后,重新建立網(wǎng)站的網(wǎng)絡(luò)。
04
設(shè)施團(tuán)隊(duì)
FacilitiesTeam
設(shè)施團(tuán)隊(duì)的主要職責(zé):
負(fù)責(zé)所有IT房外環(huán)境區(qū)域,包括建筑本身環(huán)境服務(wù),該團(tuán)隊(duì)負(fù)責(zé)安全、健康和建筑設(shè)施的更換。
設(shè)施團(tuán)隊(duì)的職責(zé)分解:
1)管理重建現(xiàn)場(chǎng)的環(huán)境和運(yùn)營(yíng);
2)管理現(xiàn)場(chǎng)的物流和運(yùn)輸;
3)負(fù)責(zé)設(shè)施所在場(chǎng)地的安全(根據(jù)需要,增加物理安全措施)。
設(shè)施團(tuán)隊(duì)的具體職責(zé):
1)與災(zāi)害管理團(tuán)隊(duì)一起,進(jìn)行損害的評(píng)估和確定可回收設(shè)備;
2)與網(wǎng)絡(luò)團(tuán)隊(duì)合作,準(zhǔn)備好快速激活的線路;
3)清理災(zāi)難現(xiàn)場(chǎng),確保該網(wǎng)站,以防止進(jìn)一步的損害;
4)提供發(fā)起保險(xiǎn)索賠的信息;
5)確保保險(xiǎn)賠償安排及時(shí)滿足災(zāi)難發(fā)生時(shí)的情況(即任何可更換設(shè)備立即得到更新等);
6)準(zhǔn)備重新使用數(shù)據(jù)中心的網(wǎng)絡(luò);
7)保證配置的數(shù)據(jù)中心符合使用的需要,包括但不限于下面的設(shè)施:
空調(diào)系統(tǒng),配電系統(tǒng),市電供應(yīng)及連接的有效,隔斷和地板,災(zāi)難區(qū)域的安全控制,各支持辦公環(huán)境,工作員工的安全和福利、勞保。
05
通信團(tuán)隊(duì)
CommunicationsTeam
通信團(tuán)隊(duì)的主要職責(zé):
負(fù)責(zé)對(duì)內(nèi)外的通訊。
通信團(tuán)隊(duì)的職責(zé)分解:
通信團(tuán)隊(duì)負(fù)責(zé)從災(zāi)難管理團(tuán)隊(duì)獲取通信指令,并在災(zāi)難和恢復(fù)階段向員工、供應(yīng)商、客戶和媒體(包括:新聞、電視、廣播)傳遞信息。
通信團(tuán)隊(duì)的具體職責(zé)如下:
1)從災(zāi)難管理團(tuán)隊(duì)獲得指令,并保持通訊的持續(xù)和對(duì)外溝通的暢通;
2)適當(dāng)?shù)南虍?dāng)?shù)?、?guó)內(nèi)、國(guó)際披露信息;
3)通知供應(yīng)商和客戶潛在的延誤;
4)通知員工恢復(fù)進(jìn)度的時(shí)間表;
5)確保沒(méi)有誤解,可能傷害公司形象;
6)其他的公共關(guān)系。
06
其他恢復(fù)團(tuán)隊(duì)
OtherRecoveryTeam
其他恢復(fù)團(tuán)隊(duì)的職責(zé):
包括在災(zāi)難恢復(fù)計(jì)劃中被認(rèn)為是必要的其他團(tuán)隊(duì)的一部分。確保你描述每個(gè)團(tuán)隊(duì)的職責(zé)和活動(dòng)。
具體團(tuán)隊(duì)描述:
1)人力和采購(gòu)團(tuán)隊(duì);
2)業(yè)務(wù)團(tuán)隊(duì);
3)損傷評(píng)估小組。