數(shù)據(jù)中心出現(xiàn)故障在所難免,事后經(jīng)過分析大部分根因都是人為因素導(dǎo)致,也就是人禍占據(jù)了所有故障原因的七成以上。一方面人們享受著自己設(shè)計的數(shù)據(jù)中心所能帶來的工作和生活上的便利,另一方面也在承受著成長的煩惱,不斷為自己的過失買單。其實不僅在數(shù)據(jù)中心領(lǐng)域,縱觀上下數(shù)百年歷史,很多災(zāi)難都來自于人禍。
任何活動只要有人的參與,就不可避免地存在出現(xiàn)人為差錯的可能性,而機(jī)器出錯的概率要比人低得多。遠(yuǎn)的不說,就在近期幾起重要的斷網(wǎng)事件都和人有關(guān)。2017年2月28日晚8點39分,百度移動端搜索發(fā)生故障,搜索請求無法顯示結(jié)果,至晚9點21分恢復(fù),歷時42分鐘。故障期間導(dǎo)致手機(jī)用戶上億次的搜索受到影響。事后,工信部立即緊急約談百度公司,了解相關(guān)情況,要求互聯(lián)網(wǎng)公司日后盡量防止類似問題再次發(fā)生。故障源自于軟件更新中存在BUG(漏洞),導(dǎo)致服務(wù)器停止服務(wù)。在數(shù)據(jù)中心里運行著大量的軟件系統(tǒng),不可避免存在軟件BUG,即使能夠達(dá)到CMM5級別的單位,其代碼缺陷率也不會低于千分之一,也就是一千行代碼里至少有一個BUG,那些擁有上千萬行代碼的軟件系統(tǒng),BUG量可想而知。當(dāng)然,一般人不會惡意在這些軟件系統(tǒng)中增加BUG,大多是在無意識、經(jīng)驗不足、精力不集中等情況下造成的,但這就是人的因素導(dǎo)致的,說白了是人禍。這幾天,全球最大的公有云服務(wù)商亞馬遜的應(yīng)用服務(wù)出現(xiàn)持續(xù)數(shù)小時故障。故障起因是AWSS3(云存儲)團(tuán)隊在進(jìn)行調(diào)試時輸入了一條錯誤指令,本應(yīng)該將少部分的S3計費流程服務(wù)器移除,可是最終意外地移去了大量的服務(wù)器,這一服務(wù)水平協(xié)議違約可能造成數(shù)百萬乃至數(shù)千萬美元的損失,這又是一例嚴(yán)重的人為故障;叵肓藦2011年到現(xiàn)在亞馬遜出現(xiàn)了7次大規(guī)模的故障,大部分原因也都是來自人為。就在剛剛,微軟大量的Xbox、Skype和Outlook用戶抱怨他們的賬戶無法登錄,提示賬戶不存在,這又是一次影響全球的大規(guī)模登錄問題,雖然微軟還未公布原因,但已經(jīng)承認(rèn)存在問題,說不定又是人為因素導(dǎo)致的。所以,一旦有人為參與較多的數(shù)據(jù)中心時,大多都不靠譜。
我們對比無人值守的數(shù)據(jù)中心和有人數(shù)據(jù)中心,不難發(fā)現(xiàn),雖無人值守數(shù)據(jù)中心擴(kuò)容業(yè)務(wù),安裝設(shè)備時經(jīng)常人手不夠,但整體運行穩(wěn)定度要比有人的數(shù)據(jù)中心高得多,這些無人數(shù)據(jù)中心在首次業(yè)務(wù)上線之后,很少有人去修改或調(diào)整系統(tǒng)運行的各種參數(shù),讓數(shù)據(jù)中心自己運行,設(shè)備按照預(yù)定的程序指令運行,很少出錯。相反,在那些運維人力強(qiáng)大的數(shù)據(jù)中心,經(jīng)常遇到這樣那樣的故障,多和人為因素有關(guān)。不少數(shù)據(jù)中心已經(jīng)意識到了這一點,所以將數(shù)據(jù)中心的控制權(quán)放在技術(shù)實力最強(qiáng)的總部,輕易不做變更,如因業(yè)務(wù)部署需要做變更,變更手續(xù)和申請過程非常嚴(yán)格,經(jīng)常要經(jīng)過設(shè)備廠家的確認(rèn)、實驗網(wǎng)模擬以及高層領(lǐng)導(dǎo)批準(zhǔn),再進(jìn)行充分的方案討論,最終才能去實施,這樣數(shù)據(jù)中心的業(yè)務(wù)運行非常穩(wěn)定,少有出錯。很多數(shù)據(jù)中心很喜歡軟件定義數(shù)據(jù)中心,就是希望可以通過軟件來統(tǒng)一控制和管理整個數(shù)據(jù)中心,將所有的控制權(quán)集中,由少數(shù)幾個技術(shù)實力雄厚的老專家控制,避免其它人胡亂改一通,引發(fā)一些未知故障。再或者直接將控制權(quán)交由軟件,將人的操作和方案交給軟件設(shè)備來執(zhí)行,設(shè)備出錯的概率要比人小得多,由軟件自行管理整個數(shù)據(jù)中心,這樣不僅可以降低人力成本,還可以減少人為出錯的概率。
正所謂“成也蕭何,敗也蕭何”,人是數(shù)據(jù)中心活動中的最重要因素,沒有人的參與哪里來的數(shù)據(jù)中心,而偏偏人也同時給數(shù)據(jù)中心帶來成長的煩惱。要想擁有一個運營良好的數(shù)據(jù)中心,必須重視運行系統(tǒng)或與系統(tǒng)交互的人。如果數(shù)據(jù)中心能投入時間在員工技術(shù)水平、培訓(xùn)、維護(hù)和運營等方面做出謹(jǐn)慎決策,往往能夠避免多數(shù)災(zāi)難,讓數(shù)據(jù)中心長期穩(wěn)定運行。很多針對數(shù)據(jù)中心發(fā)起的攻擊,都利用了人為的安全意識缺失而系統(tǒng)被攻破的。比如:2011年3月索尼公司遭黑,引發(fā)史上最嚴(yán)重的消費者資料“泄露”事故,超過7000萬玩家的郵箱、密碼、信用卡號等資料遭竊取。泄露的原因是索尼負(fù)責(zé)信息安全的員工,他沒及時給跑著過期ApacheWebserver軟件的服務(wù)器打補(bǔ)丁,也沒有安裝防火墻,結(jié)果門戶大開,引狼入室,黑客輕而易舉地盜取了內(nèi)部數(shù)據(jù)。所以數(shù)據(jù)中心要通過有效的管理,規(guī)范的ITIL和IT服務(wù)實施,才能有效降低運維中的人為隱患。數(shù)據(jù)中心管理針對的重點應(yīng)是人,而不是設(shè)備。
不難看出,數(shù)據(jù)中心的故障大多源自于人禍。運行中的數(shù)據(jù)中心,應(yīng)減少人為參與的機(jī)會,要對人為行為進(jìn)行充分的管理和評估。“三分技術(shù),七分管理”,大量的事實表明,數(shù)據(jù)中心的好與差評判標(biāo)準(zhǔn)都是由管理水平的高低所決定的,而管理主要就是針對運維人的。加強(qiáng)運維人員的管理,提升運維人員的技能水平,才能減少人為犯錯的機(jī)會,避免產(chǎn)生人禍。數(shù)據(jù)中心是一個非常復(fù)雜的IT系統(tǒng),難免會出現(xiàn)這樣那樣的問題,從而引發(fā)故障,若能夠通過有效管理減少其中人禍部分的因素,將能有效提升數(shù)據(jù)中心的運行穩(wěn)定性。當(dāng)前,隨著數(shù)據(jù)中心技術(shù)的發(fā)展和對基礎(chǔ)設(shè)施要求的提高,供配電系統(tǒng)存在的實際問題及面臨的現(xiàn)實挑戰(zhàn)也日益凸顯。對此,艾默生網(wǎng)絡(luò)能源大中華區(qū)PDU產(chǎn)品部總監(jiān)李曉東,在“思無界•設(shè)享非凡—艾默生網(wǎng)絡(luò)能源2016年華南區(qū)設(shè)計院專家高端論壇”上,予以了系統(tǒng)闡述,并針對性給出了解決之道,同時全面介紹了艾默生網(wǎng)絡(luò)能源最新推出的PTMS供電系統(tǒng)前沿解決方案。
需求促成電力模塊化的普及
首先,李曉東結(jié)合運營現(xiàn)狀,具體而深入地剖析了數(shù)據(jù)中心供配電系統(tǒng)所面臨的問題和挑戰(zhàn)。
李曉東明確指出,在數(shù)據(jù)中心設(shè)計采用一次性投資的前提下,很難對未來的用量及客戶做出準(zhǔn)確預(yù)估。而面對不斷變化的發(fā)展趨勢,需求的不確定性是數(shù)據(jù)中心規(guī)劃設(shè)計中一個很大的困擾。在實際運行中,低負(fù)載率是目前數(shù)據(jù)中心供配電系統(tǒng)亟待解決的現(xiàn)實問題之一,這不僅意味著效率偏低,而且導(dǎo)致實際運行PUE與設(shè)計PUE之間存在較大差異。
同時,更復(fù)雜的運維管理,也是數(shù)據(jù)中心供配電系統(tǒng)普遍面臨的一個挑戰(zhàn)。李曉東表示,客戶業(yè)務(wù)隨時處于變化之中,基于客戶業(yè)務(wù)不同的重要程度,數(shù)據(jù)中心往往有跨區(qū)現(xiàn)象,而且目前客戶對基礎(chǔ)設(shè)施的獨占性要求也非常高,在此情況下,數(shù)據(jù)中心供電等級變更具有很大難度。
此外,基于及時滿足業(yè)務(wù)需求的需要,快速部署和整體交付成為數(shù)據(jù)中心建設(shè)的一個顯著特征。復(fù)雜的工程化產(chǎn)品及界面、現(xiàn)場安裝調(diào)試、交付標(biāo)準(zhǔn)和工程周期,都給數(shù)據(jù)中心建設(shè)帶來巨大壓力
在深入剖析數(shù)據(jù)中心供配電系統(tǒng)所面臨的實際問題和挑戰(zhàn)之后,李曉東也基于多年的業(yè)界深度實踐經(jīng)驗,并結(jié)合業(yè)內(nèi)的創(chuàng)新舉措給出了解決之道。他強(qiáng)調(diào),電力模塊化是解決目前數(shù)據(jù)中心供配電系統(tǒng)問題及挑戰(zhàn)的有效方法,并且已經(jīng)成為主流趨勢。
供配電系統(tǒng)架構(gòu)和部署更加靈活多變
李曉東表示,電力模塊化的應(yīng)用價值在于不需要一次性投資,能夠根據(jù)實際負(fù)載靈活擴(kuò)容和設(shè)備遷移,同時工程量大大降低,可實現(xiàn)工廠預(yù)制化,所見即所得,其機(jī)電設(shè)備完全獨立,分類維護(hù),更有利于提升IT系統(tǒng)的可靠性,并且采用統(tǒng)一界面,實現(xiàn)集中管理。
預(yù)制式電力模塊化方案實例
強(qiáng)大功能與最佳實踐的極致演繹
在系統(tǒng)闡述電力模塊化應(yīng)用價值的同時,李曉東深刻詮釋了電力模塊容量顆粒度的劃分原則。他指出,電力模塊容量顆粒度的劃分,需要考慮輸入側(cè)的容量邊界、業(yè)務(wù)應(yīng)用的基本模型、單位容量的最優(yōu)成本等多個關(guān)鍵因素。
電力模塊容量顆粒度的劃分原則
面對數(shù)據(jù)中心供配電系統(tǒng)的挑戰(zhàn),如何用最佳的電力模塊顆粒度設(shè)計,滿足不同場景,不同條件的數(shù)據(jù)中心需求?李曉東結(jié)合艾默生網(wǎng)絡(luò)能源服務(wù)包括BAT在內(nèi)的各領(lǐng)域客戶的成功實踐,分享了公司最新推出的供配電系統(tǒng)前沿解決方案——PTMS功率鏈集成管理系統(tǒng)。
PTMS功率鏈系統(tǒng)集成與管理
李曉東介紹,PTMS是為數(shù)據(jù)中心提供靈活的監(jiān)控解決方案的產(chǎn)品,對接入的各類供配電設(shè)備進(jìn)行統(tǒng)一的監(jiān)控管理,保障功率鏈的正常連續(xù)運行,以方便用戶查看數(shù)據(jù)中心接入設(shè)備的運行狀態(tài)、告警情況、系統(tǒng)的運行效率。
傳統(tǒng)的配電柜,其智能化程度、管理的有效性都有待提高,PTMS就是專為滿足這種需求開發(fā)的,其優(yōu)勢體現(xiàn)在多個方面。首先可以統(tǒng)一信息接口,方便信息集中采集,形成完整功率鏈路,避免信息孤島,其次針對配電的管理大大提高了專業(yè)性和有效性。不僅如此,PTMS能夠?qū)Ξa(chǎn)品的配置進(jìn)行優(yōu)化,在保留元件基礎(chǔ)功能的基礎(chǔ)上減少冗余配置,優(yōu)化投資結(jié)構(gòu)。另外,PTMS具備各種儀表功能,包括支路參數(shù)測量、電壓電流波形抓取、供電鏈路可靠性分析等等,并且動態(tài)可視化的單線圖顯示,讓系統(tǒng)運行狀態(tài)一目了然。
PTMS的供電鏈路可靠性分析
動態(tài)系統(tǒng)單線圖及狀態(tài)模擬
李曉東表示,從整體功率鏈來看,艾默生網(wǎng)絡(luò)能源都極具優(yōu)勢。為此,他特別分享了國內(nèi)某地公安廳供配電一體化模塊工程項目的經(jīng)典案例。
在該項目中,應(yīng)用了艾默生網(wǎng)絡(luò)能源的UPS系統(tǒng)、EPK低壓配電系統(tǒng)、ATS以及PTMS。項目實施按照電力模塊需求容量布置,整體結(jié)構(gòu)風(fēng)格統(tǒng)一,平面布局更合理,其內(nèi)部連接的產(chǎn)品工程化處理,工程界面清晰,實現(xiàn)了高標(biāo)準(zhǔn)快速交付,并且集中直觀的系統(tǒng)級管理方式,關(guān)注系統(tǒng)整體可靠性而非單個元件設(shè)備個體。
供配電一體化模塊的工程應(yīng)用
值得一提的是,艾默生網(wǎng)絡(luò)能源為客戶提供的一體化電力模塊,不是簡單地拼湊,而是通過內(nèi)部研發(fā)的工程化設(shè)計,尤其是EPK低壓配電系統(tǒng)主要關(guān)鍵部件,包括斷路器、ATS、智能儀表、防雷器等產(chǎn)品,都來自艾默生網(wǎng)絡(luò)能源自有品牌,具有非常好的匹配性,充分保證了產(chǎn)品之間的無縫銜接和完美融合。 |