欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      再談大型數(shù)據(jù)中心的運(yùn)維工作(本站推薦)

      時(shí)間:2019-05-13 19:13:50下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫寫幫文庫(kù)小編為你整理了多篇相關(guān)的《再談大型數(shù)據(jù)中心的運(yùn)維工作(本站推薦)》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫(kù)還可以找到更多《再談大型數(shù)據(jù)中心的運(yùn)維工作(本站推薦)》。

      第一篇:再談大型數(shù)據(jù)中心的運(yùn)維工作(本站推薦)

      再談大型數(shù)據(jù)中心的運(yùn)維工作

      隨著數(shù)據(jù)中心的建設(shè)規(guī)模不斷擴(kuò)大,新技術(shù)層出不窮,數(shù)據(jù)中心變得越來(lái)越復(fù)雜。數(shù)據(jù)中心往往是由很多規(guī)模龐大的集群系統(tǒng)組成的,運(yùn)維工作需要具備方方面面的知識(shí),包括硬件上,業(yè)務(wù)上的東西,需要上下打通地去做運(yùn)維工作。因?yàn)楹芏鄶?shù)據(jù)中心的規(guī)模非常大,面臨的挑戰(zhàn)和問(wèn)題非常超前,很多不是問(wèn)題的問(wèn)題在這樣的規(guī)模下也就凸顯出來(lái)了,所以要做好大型數(shù)據(jù)中心的運(yùn)維工作,對(duì)整個(gè)數(shù)據(jù)中心技術(shù)的系統(tǒng)的學(xué)習(xí)就要花費(fèi)比較長(zhǎng)的時(shí)間,只有對(duì)這個(gè)數(shù)據(jù)中心整體非常了解,才能有針對(duì)性地制定一些運(yùn)維方案,甚至可以二次開發(fā)一些監(jiān)控軟件,對(duì)整個(gè)數(shù)據(jù)中心進(jìn)行管理與監(jiān)控,提升整個(gè)數(shù)據(jù)中心的運(yùn)行效率,減少故障的發(fā)生,從而將運(yùn)維工作推向新的高度。一個(gè)大型的數(shù)據(jù)中心內(nèi)部包含了很多小系統(tǒng),運(yùn)維工作都是圍繞著這些具體的應(yīng)用系統(tǒng)展開的,具體的可以分為五大部分,三十多個(gè)小項(xiàng),覆蓋了數(shù)據(jù)中心的所有組成部分,本文就來(lái)說(shuō)一說(shuō)一般大型的數(shù)據(jù)中心應(yīng)該具備的哪些運(yùn)維方法。

      從數(shù)據(jù)中心安全方面來(lái)考慮,運(yùn)維工作就是十幾個(gè)小項(xiàng):攻擊保護(hù)、固件管理、備份、抓BUG/找BUG、腳本工具、自動(dòng)化維修、數(shù)據(jù)安全、性能優(yōu)化、服務(wù)巡檢等項(xiàng)目,其中每一項(xiàng)拿出來(lái)其實(shí)都包含很多的內(nèi)容。比如說(shuō)到攻擊與保護(hù),這個(gè)主要指的是防止外來(lái)的異常入侵者對(duì)數(shù)據(jù)中心發(fā)起的惡意和無(wú)意攻擊,惡意攻擊就是有人故意的使用各種攻擊方法,進(jìn)入到數(shù)據(jù)中心內(nèi)部,將重要的數(shù)據(jù)竊取或者破壞,達(dá)到其不可告人的目的。也有的是無(wú)意的攻擊,因?yàn)檎麄€(gè)數(shù)據(jù)中心是要與外界保持互聯(lián)互通的,運(yùn)行是動(dòng)態(tài)的,變化的,不可避免會(huì)有一些異常流量攻擊數(shù)據(jù)中心,有時(shí)甚至來(lái)自于數(shù)據(jù)中心內(nèi)部,比如某些服務(wù)器中毒,或者硬件故障,構(gòu)造出了環(huán)路,異常流量等網(wǎng)絡(luò)故障,這些都會(huì)影響到數(shù)據(jù)中心的運(yùn)行,所以如何做好數(shù)據(jù)中心的攻擊與保護(hù)是一個(gè)很大的題目,這并不是在數(shù)據(jù)中心里部署幾臺(tái)安全設(shè)備就能解決的,需要對(duì)整個(gè)數(shù)據(jù)中心進(jìn)行全面的統(tǒng)一規(guī)劃,并有針對(duì)性地部署一些安全防護(hù)措施,而且隨著各種黑客技術(shù)的提升,安全防護(hù)措施也要不斷提升,這是一個(gè)不斷學(xué)習(xí)與完善的過(guò)程,只要數(shù)據(jù)中心還在運(yùn)行,這個(gè)完善就不會(huì)停止。為了方便運(yùn)維,也要做好一些執(zhí)行腳本,以便在出現(xiàn)突發(fā)事件時(shí),能夠快速部署。比如如果一個(gè)數(shù)據(jù)中心的業(yè)務(wù)出現(xiàn)異常,為了快速恢復(fù)業(yè)務(wù),需要將路由進(jìn)行調(diào)整,將流量全部引到其它的數(shù)據(jù)中心,這就需要在核心路由器上進(jìn)行調(diào)整,這時(shí)有個(gè)現(xiàn)成的腳本就可以自動(dòng)執(zhí)行,達(dá)到快速切換的目的。數(shù)據(jù)中心還應(yīng)該準(zhǔn)備很多其它工作的腳本,以便緊急的時(shí)候快速使用。從數(shù)據(jù)中心的基礎(chǔ)運(yùn)維管理方面考慮,則主要有網(wǎng)絡(luò)抓包/過(guò)濾、可維護(hù)性優(yōu)化、配置管理、監(jiān)控、報(bào)警處理、自動(dòng)化運(yùn)維、斷網(wǎng),斷電、機(jī)房容災(zāi)等運(yùn)維工作。其中自動(dòng)化運(yùn)維能提升運(yùn)維的工作效率,盡量減少人為的參與,讓數(shù)據(jù)中心自己管理自己,釋放人力。同時(shí)針對(duì)數(shù)據(jù)中心可能發(fā)生的故障還做好監(jiān)控與報(bào)警處理,以便能夠在故障發(fā)生的第一時(shí)間知曉問(wèn)題,往往一次大的故障都是從開始的一點(diǎn)小故障逐漸擴(kuò)展最終引發(fā)整個(gè)大系統(tǒng)的崩潰的,所以在出現(xiàn)一些小的異常時(shí)一定要及時(shí)消除,而這些異常就要靠完善的監(jiān)控和報(bào)警系統(tǒng)來(lái)檢測(cè)。

      從數(shù)據(jù)中心的日常業(yè)務(wù)運(yùn)維方面考慮,則主要有資源、機(jī)器分配、Coredump、服務(wù)、內(nèi)存使用、網(wǎng)絡(luò)吞吐、故障恢復(fù)、應(yīng)用,集群搭建、流量,壓力,擴(kuò)容,升級(jí)、上下級(jí)業(yè)務(wù)關(guān)聯(lián)情況、資源利用率、異常處理、降級(jí)預(yù)案等等。這些日常運(yùn)維工作實(shí)際上要花費(fèi)大量的人力和時(shí)間,是運(yùn)維工作的主體,也最煩瑣,但卻最不能體現(xiàn)業(yè)績(jī)的部分。一個(gè)數(shù)據(jù)中心能夠長(zhǎng)久安全穩(wěn)定運(yùn)行,就是靠這些日常的工作積累的,只有平時(shí)注意這些細(xì)微的變化,才能不斷優(yōu)化。壓力測(cè)試、軟件升級(jí)、業(yè)務(wù)部署、異常處理等幾乎成為了運(yùn)維工作的日常必修課,只有將這些工作做好,才能避免出現(xiàn)大的故障,并能夠快速部署新的業(yè)務(wù),新的擴(kuò)容設(shè)備。從數(shù)據(jù)中心網(wǎng)絡(luò)方面考慮,則主要有網(wǎng)絡(luò)硬件設(shè)備、ACL、VIP、流量、負(fù)載均衡、二三四七層情況、網(wǎng)絡(luò)監(jiān)控、萬(wàn)兆板卡、SAS/SATA/SSD等。網(wǎng)絡(luò)是數(shù)據(jù)中心的重要組成部分,是一切工作運(yùn)行的基本,沒(méi)有網(wǎng)絡(luò)數(shù)據(jù)中心就無(wú)法運(yùn)轉(zhuǎn)起來(lái),所以保證網(wǎng)絡(luò)穩(wěn)定是數(shù)據(jù)中心運(yùn)維工作中的重中之重。這里主要關(guān)注的就是網(wǎng)絡(luò)的硬件問(wèn)題,ACL部署還有流量情況。網(wǎng)絡(luò)可以說(shuō)是包羅萬(wàn)象,涉及太多的設(shè)備和協(xié)議技術(shù),所以也需要不斷地學(xué)習(xí),加深對(duì)網(wǎng)絡(luò)技術(shù)的理解,這樣才能做好網(wǎng)絡(luò)運(yùn)維工作。

      從數(shù)據(jù)中心服務(wù)器方面考慮,則主要有文件系統(tǒng)、內(nèi)核參數(shù)調(diào)優(yōu)、各種硬盤驅(qū)動(dòng)、內(nèi)核版本、Kernel panic等。Linux系統(tǒng)不僅在服務(wù)器,在網(wǎng)絡(luò)操作系統(tǒng)也占據(jù)著主流地位,掌握Linux系統(tǒng)的使用才能更好地處理服務(wù)器和網(wǎng)絡(luò)設(shè)備的運(yùn)維工作,Linux是運(yùn)維工作的一項(xiàng)基本技能。除了熟悉Linux系統(tǒng)的操作,還要對(duì)服務(wù)器的運(yùn)行狀態(tài)和內(nèi)核運(yùn)行狀態(tài)進(jìn)行監(jiān)控與管理,減少服務(wù)器故障的發(fā)生。一般大型的數(shù)據(jù)中心都包含有成千上萬(wàn)臺(tái)的服務(wù)器,幾乎每天都會(huì)有服務(wù)器出現(xiàn)各種各樣的問(wèn)題,只有對(duì)服務(wù)器有深入理解才能很好地消除問(wèn)題。為了防止服務(wù)器故障引發(fā)業(yè)務(wù)中斷,所以一般在服務(wù)器上都要部署虛擬化技術(shù)或者集群技術(shù),當(dāng)一臺(tái)服務(wù)器物理硬件故障時(shí),業(yè)務(wù)可以平滑切換到其它服務(wù)器上,業(yè)務(wù)不會(huì)受到任何影響。這些虛擬化技術(shù)增加了運(yùn)維的難度,也需要對(duì)虛擬化技術(shù)進(jìn)行不斷學(xué)習(xí)。通過(guò)上面的羅列您一定很驚訝,原來(lái)數(shù)據(jù)中心運(yùn)維包含這么多內(nèi)容,大大小小數(shù)十項(xiàng),而且每一項(xiàng)包含的內(nèi)容說(shuō)起來(lái)都不那么簡(jiǎn)單,也涉及很多的技術(shù)知識(shí)。一個(gè)數(shù)據(jù)中心能否穩(wěn)定運(yùn)行,能夠高效運(yùn)行,運(yùn)維是關(guān)鍵。只有將這些運(yùn)維工作很好地部署和執(zhí)行下去,數(shù)據(jù)中心才能長(zhǎng)期穩(wěn)定?!揪庉嬐扑]】

      淺析建設(shè)綠色數(shù)據(jù)中心供電系統(tǒng)的意義

      數(shù)據(jù)中心發(fā)展吹響“綠色”集結(jié)號(hào)

      利用廢棄建筑建設(shè)數(shù)據(jù)中心

      解密公有云數(shù)據(jù)中心擴(kuò)張背后的驅(qū)動(dòng)力量

      “互聯(lián)網(wǎng)+”時(shí)代 數(shù)據(jù)中心如何做“減法”?

      第二篇:數(shù)據(jù)中心運(yùn)維題目

      運(yùn)維部第二季度考試試卷

      部門:__________________ 姓名:__________________ 分?jǐn)?shù):_____________

      一、填空題(每空 1分,共 10分)

      1、IDC 機(jī)房溫濕度應(yīng)嚴(yán)格符合設(shè)備運(yùn)行要求。溫度正常工作范圍 18-26 度;相對(duì)濕度正常工作范圍 40%-70% ;當(dāng)發(fā)現(xiàn)溫濕度異常時(shí),應(yīng)及時(shí)()

      2、嚴(yán)格機(jī)房進(jìn)出制度,外來(lái)人員應(yīng)()

      3、UPS 電源三相電壓 Vab、Vbc、Vca 正常時(shí)顯示應(yīng)為(),用藍(lán),黑顏色和字母()來(lái)標(biāo)識(shí)零線,用 黃 綠 顏色和字母()標(biāo)識(shí)保護(hù)地線。

      4、空調(diào)非標(biāo)柜分閘燈亮表示該路電源(),合閘燈亮表示該路電源閉 合。當(dāng)機(jī)房外供電出現(xiàn)中斷以后,空調(diào)非標(biāo)準(zhǔn)柜上市電燈亮起時(shí),需要 按非標(biāo)柜上的()按鈕,手動(dòng)合閘。

      5、啟動(dòng)機(jī)房氣體消防系統(tǒng)滅火的方法有三種,按照啟動(dòng)級(jí)別依次為 按監(jiān)控 室控制端的()、擊碎機(jī)房大門側(cè)面的(),到氣瓶間拔出對(duì)應(yīng)樓層的()。

      二、選擇題(每題 4 分 共 20 分)

      1、MAC地址表示方法正確的是()A、0778 B、202.201.32.100 C、011111110.01001000.11110101.00101010 D、00-60-58-70-C8-9A

      2、以下那一項(xiàng)不含在PUE計(jì)算的電子信息設(shè)備能耗之中()A.通訊機(jī)房的傳輸設(shè)備 B.模塊機(jī)房中客戶的交換機(jī)

      C.模塊機(jī)房中我司自有的云平臺(tái)設(shè)備 D.值班室的辦公電腦

      3、下面不是 IDC 機(jī)房的服務(wù)器操作系統(tǒng)的是()A、Windows Server 2003、Windows 2008 Server B、Andorid、Symbian、BlackBerryOS、windows mobile C、LINXU、Centos、SUSlinux D、UNIX、freebsd

      4、某公司申請(qǐng)到了一個(gè)C類IP地址,需要分配給8個(gè)子公司,最好的子網(wǎng)掩碼應(yīng)設(shè)為()A、255.255.255.0 B、255.255.255.128 C、255.255.255.240 D、255.255.255.224

      5、Cisco 交換機(jī)端口指示燈為()的情況下,為正常工作。A.熄滅

      B.橘色固定時(shí)間間隔緩慢閃動(dòng) C.綠色快速閃動(dòng)

      D.綠色固定時(shí)間間隔緩慢閃動(dòng)

      三、判斷題(每題 1分,共 10分)

      1、值班人員不得隨意屏蔽設(shè)備報(bào)警。()

      2、機(jī)房技術(shù)檔案可以在論壇中與其他人分享。()

      3、各種滅火器材應(yīng)定位放置,隨時(shí)保持有效,人人會(huì)使用。()

      4、在機(jī)房服務(wù)器故障巡檢中漏檢,錯(cuò)檢,在下次注意即可,不同通知相關(guān)負(fù)責(zé)人。()

      5、設(shè)備測(cè)試遠(yuǎn)距離取電,多個(gè)插排串接不會(huì)對(duì)設(shè)備用電產(chǎn)生安全隱患。()

      6、客戶入室維護(hù)時(shí)發(fā)現(xiàn)未收到入室工單,應(yīng)安撫客戶并立刻與客響中心確認(rèn)。()

      7、當(dāng)發(fā)現(xiàn)隱患尚未解決,上一班次已經(jīng)傳報(bào),接班人無(wú)須二次傳報(bào)。()

      8、氣體消防氣體采用無(wú)毒惰性氣體,因此在氣體釋放時(shí)人員可以站在機(jī)房?jī)?nèi)或者機(jī)房大門旁。()

      9、電源線和網(wǎng)線在條件允許下,可以在同一個(gè)走線架上走在一起。()

      10、發(fā)現(xiàn)服務(wù)器電源模塊與電源線插接處電纜外皮剝落,可能發(fā)生漏電情況,應(yīng)先保障設(shè)備安全,操作設(shè)備進(jìn)行關(guān)機(jī)操作。()

      四、簡(jiǎn)答題(每題10分,共60 分)

      1、請(qǐng)簡(jiǎn)要?jiǎng)澇瞿闼?IDC 機(jī)房的弱電路由圖(包括光纖odf分布,布線弱電橋架分布)。

      2、請(qǐng)簡(jiǎn)要說(shuō)明你所在 IDC 機(jī)房的設(shè)備設(shè)施的供電方式和斷電處理方式。

      3、簡(jiǎn)述下常用網(wǎng)絡(luò)命令操作;

      (1)檢測(cè)機(jī)房到“百度網(wǎng)”的網(wǎng)絡(luò)連通性;

      (2)查看機(jī)房到“百度網(wǎng)“的網(wǎng)絡(luò)路由,并說(shuō)出最大延遲和丟包所在 的 IP 地址;

      (3)連續(xù) ping 百度網(wǎng) 50 個(gè)包,查看丟包率;

      4、簡(jiǎn)述配置linux環(huán)境下,windows環(huán)境下,開啟遠(yuǎn)程桌面的命令或者步驟;

      5、請(qǐng)簡(jiǎn)要描述你所在 IDC 機(jī)房的機(jī)柜單路空開跳閘的處理過(guò)程和注意事項(xiàng)。

      6、請(qǐng)簡(jiǎn)要說(shuō)明下你所在的IDC機(jī)房汛期的重要關(guān)注事項(xiàng)及位置。

      第三篇:數(shù)據(jù)中心運(yùn)維操作標(biāo)準(zhǔn)及流程

      數(shù)據(jù)中心運(yùn)維操作標(biāo)準(zhǔn)及流程

      鄭州向心力通信技術(shù)股份有限公司

      二零一八年 1 機(jī)房運(yùn)維管理前期準(zhǔn)備 1.1 管理目標(biāo)

      機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)與業(yè)主管理層、IT部門、相關(guān)業(yè)務(wù)部門共同討論確定運(yùn)維管理目標(biāo)。制定目標(biāo)時(shí),應(yīng)綜合考慮機(jī)房所支持的應(yīng)用的可用性要求、機(jī)房基礎(chǔ)設(shè)施設(shè)施的等級(jí)、容量等因素。目標(biāo)宜包括可用性目標(biāo)、能效目標(biāo)、可以用服務(wù)等級(jí)協(xié)議(SLA)的形式呈現(xiàn)。不同應(yīng)用的可用性目標(biāo)的機(jī)房,可設(shè)定不同等級(jí)的機(jī)房基礎(chǔ)設(shè)施的運(yùn)維管理目標(biāo)。1.2 參與數(shù)據(jù)中心建設(shè)過(guò)程

      機(jī)房運(yùn)維團(tuán)隊(duì)?wèi)?yīng)充分了解自己將要管理的場(chǎng)地基礎(chǔ)設(shè)施。對(duì)于新建機(jī)房,應(yīng)盡早參與機(jī)房基礎(chǔ)設(shè)施的建設(shè)過(guò)程,以便將運(yùn)維階段的需求在規(guī)劃、設(shè)計(jì)、建造、安裝和調(diào)試等過(guò)程中得到充分的考慮;同時(shí)為后期做好運(yùn)維工作打下基礎(chǔ)。1.2.1 應(yīng)參與規(guī)劃設(shè)計(jì)

      機(jī)房的規(guī)劃設(shè)計(jì)是一個(gè)謹(jǐn)慎和嚴(yán)謹(jǐn)?shù)倪^(guò)程,需要所有參與機(jī)房建設(shè)的相關(guān)方共同完成,才能確保規(guī)劃和設(shè)計(jì)的有效性、實(shí)用性等要求。其中,基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)提出運(yùn)維要求,從運(yùn)維經(jīng)驗(yàn)、實(shí)際運(yùn)維難度、提高運(yùn)維可易性等方面對(duì)規(guī)劃和設(shè)計(jì)過(guò)程進(jìn)行配合。1.2.2 應(yīng)參與相關(guān)供應(yīng)商遴選

      機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)參與機(jī)房基礎(chǔ)設(shè)施設(shè)備供應(yīng)商選擇的全過(guò)程,及時(shí)地了解各種產(chǎn)品及服務(wù)的品牌、型號(hào)、規(guī)格等關(guān)鍵參數(shù),使之更能滿足運(yùn)維的要求。并就在安裝、調(diào)試過(guò)程中的注意事項(xiàng)等提出建議,還需要對(duì)后續(xù)的設(shè)備保修等服務(wù)提出要求。1.2.3 應(yīng)參與建造管理

      機(jī)房的基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)積極參與機(jī)房基礎(chǔ)設(shè)施的建造工作,并協(xié)助做好建設(shè)項(xiàng)目的項(xiàng)目管理工作,著重關(guān)注工程建造中如材料的使用、工序、建造過(guò)程等工作,重點(diǎn)關(guān)注隱蔽工程的安裝工藝和質(zhì)量。機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)充分了解施工過(guò)程中的工藝。對(duì)于新建數(shù)據(jù)中心,從施工質(zhì)量和日后運(yùn)維方便性出發(fā),盡早發(fā)現(xiàn)施工過(guò)程的問(wèn)題,及時(shí)糾正,方便日后運(yùn)維和節(jié)省日后整改成本。1.3 測(cè)試驗(yàn)證

      機(jī)房基礎(chǔ)設(shè)施投產(chǎn)前的測(cè)試驗(yàn)證是確保機(jī)房基礎(chǔ)設(shè)施滿足設(shè)計(jì)要求和運(yùn)行要求的關(guān)鍵環(huán)節(jié)。1.3.1 時(shí)間和預(yù)算

      機(jī)房的業(yè)主應(yīng)設(shè)立測(cè)試驗(yàn)證專項(xiàng)預(yù)算,預(yù)算應(yīng)包括外部測(cè)試驗(yàn)證服務(wù)提供商的相關(guān)費(fèi)用,以及在測(cè)試驗(yàn)證階段產(chǎn)生的電費(fèi)、水費(fèi)、油費(fèi)等相關(guān)費(fèi)用。應(yīng)制定測(cè)試驗(yàn)證的工期規(guī)劃,以更準(zhǔn)確地預(yù)測(cè)機(jī)房基礎(chǔ)設(shè)施交付投產(chǎn)的日期。1.3.2 測(cè)試驗(yàn)證參與方

      項(xiàng)目建設(shè)管理部門可作為測(cè)試驗(yàn)證工作的主體責(zé)任單位;運(yùn)維管理部門可作為測(cè)試驗(yàn)證工作的主體審核單位;第三方測(cè)試服務(wù)商可作為測(cè)試驗(yàn)證的實(shí)施單位及整體組織工作的協(xié)調(diào)單位。但運(yùn)維管理部門應(yīng)要求測(cè)試服務(wù)商預(yù)先提供測(cè)試方案,在運(yùn)維管理部門審核后方可進(jìn)行。機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)可參與測(cè)試驗(yàn)證工作,在此過(guò)程中熟悉設(shè)施和設(shè)備,可建立相關(guān)運(yùn)維技術(shù)文檔庫(kù),為后期的運(yùn)維工作做好準(zhǔn)備。

      機(jī)房關(guān)鍵設(shè)備提供商及工程總包商,應(yīng)積極配合測(cè)試驗(yàn)證工作,應(yīng)在供應(yīng)商合同中對(duì)此項(xiàng)有明確要求。1.3.3 測(cè)試驗(yàn)證內(nèi)容

      驗(yàn)證應(yīng)覆蓋所有關(guān)鍵子系統(tǒng)和設(shè)備應(yīng)具備的功能和關(guān)鍵的操作程序,確保滿足設(shè)計(jì)要求,必要時(shí)可做故障情景模擬來(lái)檢驗(yàn)。

      測(cè)試驗(yàn)證中發(fā)現(xiàn)設(shè)計(jì)或者建設(shè)階段的問(wèn)題,應(yīng)該在報(bào)告中充分體現(xiàn);可以改造的部分,應(yīng)要求建設(shè)單位進(jìn)行改造;不能改造或暫時(shí)不需改造部分,應(yīng)作為風(fēng)險(xiǎn)點(diǎn)在運(yùn)維過(guò)程中予以特別的重視,并制定相關(guān)預(yù)案。

      1.3.4 設(shè)施健康評(píng)估

      當(dāng)接手已在運(yùn)行的機(jī)房基礎(chǔ)設(shè)施的運(yùn)維工作前,運(yùn)維團(tuán)隊(duì)?wèi)?yīng)對(duì)設(shè)施的情況進(jìn)行健康評(píng)估,了解潛在風(fēng)險(xiǎn)點(diǎn),其中能夠改造的部分,應(yīng)該申請(qǐng)予以優(yōu)化改造。不能改造的部分,應(yīng)該作為風(fēng)險(xiǎn)點(diǎn)在運(yùn)維中予以特別的重視,并制定相關(guān)預(yù)案。1.4 技術(shù)文檔

      完整并準(zhǔn)確的技術(shù)文檔是后期運(yùn)行、維護(hù)、維修、故障診斷、優(yōu)化改造的基礎(chǔ)。運(yùn)維團(tuán)隊(duì)在開展運(yùn)維工作前,應(yīng)從施工單位得到場(chǎng)地基礎(chǔ)設(shè)施的全套相關(guān)文檔,包括但不限于:機(jī)房的規(guī)劃設(shè)計(jì)資料及竣工圖紙、全套設(shè)備的清單及相關(guān)操作文檔和保修保養(yǎng)資料、機(jī)房自動(dòng)操作系統(tǒng)的邏輯圖及說(shuō)明文檔、監(jiān)控系統(tǒng)的點(diǎn)表、驗(yàn)收測(cè)試文檔、機(jī)房所在建筑的建筑設(shè)計(jì)資料、竣工圖紙。整體文檔應(yīng)在限定時(shí)限內(nèi)進(jìn)入運(yùn)維管理知識(shí)庫(kù),并按照質(zhì)量管理的原理和要求設(shè)定文檔的起草、變更、審核、批準(zhǔn)、保存、分發(fā)等職責(zé)權(quán)限。1.5 管理邊界

      為了明確管理責(zé)任,機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)將可能影響機(jī)房基礎(chǔ)設(shè)施運(yùn)維目標(biāo)達(dá)成的外界因素整合成管理邊界報(bào)告,提交業(yè)主管理層并組織研討,形成明確的決策,制定完整的協(xié)調(diào)溝通機(jī)制及權(quán)責(zé)界限。這些因素包括但不限于:不歸本部門負(fù)責(zé),但可能對(duì)于本部門有重大影響的供電、供水、供暖、制冷、消防、安防、監(jiān)控、運(yùn)營(yíng)商線路接入等系統(tǒng)。安全管理和質(zhì)量管理建議 2.1 人員安全

      機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)要編制正式的機(jī)房生產(chǎn)環(huán)境(工作場(chǎng)所)的安全方針,設(shè)定嚴(yán)格的安全生產(chǎn)規(guī)范;并根據(jù)安全方針制定有效的、明確的安全計(jì)劃,來(lái)教授和培訓(xùn)安全原則、危險(xiǎn)識(shí)別、糾正缺陷和控制風(fēng)險(xiǎn)。并加強(qiáng)對(duì)于該部分規(guī)范的合規(guī)度的培訓(xùn)、考試和審核檢查,以確保機(jī)房運(yùn)維人員的人身安全。相關(guān)安全生產(chǎn)規(guī)范主要包括:

      ●機(jī)房生產(chǎn)環(huán)境安全管理規(guī)范; ●機(jī)房基礎(chǔ)設(shè)施各系統(tǒng)安全管理手冊(cè); ●機(jī)房基礎(chǔ)設(shè)施涉及安全的應(yīng)急預(yù)案; ●機(jī)房基礎(chǔ)設(shè)施管理過(guò)程涉及的技術(shù)方案中的安全管理策略。機(jī)房基礎(chǔ)設(shè)施中與電氣相關(guān)的工作存在著固有危險(xiǎn)。設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)當(dāng)創(chuàng)建一份正式電氣安全計(jì)劃,以最小化所有工作人員受到電氣傷害的風(fēng)險(xiǎn),確?,F(xiàn)場(chǎng)電氣系統(tǒng)達(dá)到相關(guān)法規(guī)標(biāo)準(zhǔn)。電氣安全計(jì)劃中的條款應(yīng)規(guī)定電氣工作人員在有資質(zhì)和具備合理安全工作流程的前提下才能進(jìn)行操作,并應(yīng)利用防護(hù)設(shè)備和其他控制手段,如上鎖掛牌設(shè)備。此計(jì)劃的創(chuàng)建旨在防止員工受到電擊、燒傷、電弧和其他潛在電氣安全隱患,同時(shí)要求其遵守法規(guī)標(biāo)準(zhǔn)。

      相關(guān)國(guó)家、行業(yè)規(guī)程包括但不限于:

      ●GB 26860電力安全工作規(guī)程 發(fā)電廠和變電站電氣部分; ●DL 408 電業(yè)安全工作規(guī)程。2.2 物理環(huán)境安全

      應(yīng)了解周邊社會(huì)環(huán)境信息,評(píng)估潛在的安全風(fēng)險(xiǎn)并制定預(yù)案。這些信息宜包含但不限于:周邊交通路況、醫(yī)院、供油站、消防站、變電站、供水、供電、供氣、網(wǎng)絡(luò)通信線路等。可建立周邊社會(huì)環(huán)境管理資料庫(kù)。

      應(yīng)了解機(jī)房所在地的歷史自然災(zāi)害情況。包含但不限于GB50174 及TIA-942中提到的所有評(píng)估機(jī)房選址的外部因素,并制定相應(yīng)的管理預(yù)案。

      應(yīng)建立并執(zhí)行嚴(yán)格的機(jī)房設(shè)備、人員、車輛進(jìn)出管理制度。應(yīng)設(shè)立不同安全區(qū)等級(jí)(參考ISO27001信息安全管理中的物理安全控制)并制定訪客管理制度,用以有效管理訪客。2.3 質(zhì)量管理

      在機(jī)房基礎(chǔ)設(shè)施運(yùn)維過(guò)程中建立完善的質(zhì)量管理體系,是保障以上機(jī)房基礎(chǔ)設(shè)施運(yùn)維趨于卓越的重要因素和手段。機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)的所有關(guān)鍵工作應(yīng)包括以下的質(zhì)量管理要素: 2.3.1 質(zhì)量保證

      ●過(guò)程制定; ●程序制定; ●過(guò)程審核和批準(zhǔn); ●過(guò)程和程序培訓(xùn)。2.3.2 質(zhì)量控制

      ●事件回顧; ●質(zhì)量檢查和檢驗(yàn); ●定期質(zhì)量審核。2.3.3 質(zhì)量改進(jìn)

      ●故障分析; ●經(jīng)驗(yàn)教訓(xùn); ●優(yōu)化及創(chuàng)新計(jì)劃。人員管理建議 3.1 組織及人員 3.1.1 組織架構(gòu)

      機(jī)房運(yùn)維團(tuán)隊(duì)?wèi)?yīng)有清晰的組織架構(gòu),同時(shí)對(duì)各崗位有明確的崗位職責(zé)說(shuō)明并在計(jì)算機(jī)化維護(hù)管理系統(tǒng)(CMMS)中實(shí)現(xiàn)權(quán)責(zé)匹配,同步更新。中大型數(shù)據(jù)中心場(chǎng)地基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)中除現(xiàn)場(chǎng)負(fù)責(zé)人外,可按照工作內(nèi)容分設(shè)以下幾個(gè)主要職能崗位:

      ●運(yùn)維巡檢團(tuán)隊(duì)

      主要職責(zé):對(duì)基礎(chǔ)設(shè)備設(shè)施進(jìn)行巡檢,擔(dān)任值班工作,第一時(shí)間發(fā)現(xiàn)故障或問(wèn)題,并作為管理程序的執(zhí)行者。

      ●技術(shù)管理團(tuán)隊(duì)

      主要職責(zé):對(duì)機(jī)房基礎(chǔ)設(shè)施提供運(yùn)維技術(shù)支持,解決技術(shù)問(wèn)題,承擔(dān)機(jī)房基礎(chǔ)設(shè)施一般性的優(yōu)化改造工程的項(xiàng)目管理工作,宜包括電氣、空調(diào)、弱電等系統(tǒng)的技術(shù)人員。

      ● 物理環(huán)境安全管理團(tuán)隊(duì)

      主要職責(zé):對(duì)物理環(huán)境安全進(jìn)行管理,進(jìn)行安全巡檢等工作。3.1.2 人員配制

      機(jī)房基礎(chǔ)設(shè)施運(yùn)維人員的配備應(yīng)根據(jù)運(yùn)維管理目標(biāo)或SLA來(lái)確定。中高等級(jí)的機(jī)房,可按照7X24的運(yùn)行要求配置運(yùn)維人員。上崗人員應(yīng)具備國(guó)家要求的相應(yīng)資格證書。應(yīng)在運(yùn)維管理程序中明確規(guī)定資質(zhì)等級(jí)與操作權(quán)限的一致性。

      高等級(jí)以及具有一定規(guī)模的機(jī)房,每個(gè)班組應(yīng)配備具有電力、暖通、弱電專業(yè)能力的運(yùn)維人員,以達(dá)到“即時(shí)應(yīng)急響應(yīng)”的工作狀態(tài)。等級(jí)相對(duì)低的機(jī)房,每個(gè)班需要至少配備一人,達(dá)到“即時(shí)報(bào)警”的工作狀態(tài)。

      運(yùn)維團(tuán)隊(duì)的關(guān)鍵崗位應(yīng)有人員備份和儲(chǔ)備。機(jī)房基礎(chǔ)設(shè)施運(yùn)維管理團(tuán)隊(duì)的關(guān)鍵管理人員或關(guān)鍵崗位人員在正常運(yùn)維工作開展中應(yīng)采用A、B 角色配置,日常工作中應(yīng)注意角色的分配和工作的配合。其它崗位人員宜建立良好的循環(huán)機(jī)制,人員可進(jìn)行崗位輪換和交叉培訓(xùn),使所有人員掌握全面的基礎(chǔ)知識(shí)。3.1.3 績(jī)效管理

      為了提高機(jī)房運(yùn)維人員的技術(shù)技能、職業(yè)素養(yǎng)和提倡團(tuán)隊(duì)合作精神,專業(yè)地、高效率地運(yùn)行和維護(hù)機(jī)房基礎(chǔ)設(shè)施,有必要建立人員的關(guān)鍵績(jī)效指標(biāo),定期對(duì)所有人員的短期和長(zhǎng)期績(jī)效進(jìn)行評(píng)估,獎(jiǎng)優(yōu)罰劣,推動(dòng)整個(gè)運(yùn)維團(tuán)隊(duì)技術(shù)和素質(zhì)的發(fā)展和改進(jìn)。3.1.4 人員管理制度

      為了保障機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)的創(chuàng)新性、穩(wěn)定性、持續(xù)性,應(yīng)通過(guò)建立合理的人員管理制度,約束人員的工作態(tài)度、行為規(guī)范,提高人員的工作熱情、工作效率和執(zhí)行力,激發(fā)人員正面影響,使團(tuán)隊(duì)一直保有活力來(lái)共同努力達(dá)成服務(wù)等級(jí)協(xié)議的要求,運(yùn)維團(tuán)隊(duì)?wèi)?yīng)該建立運(yùn)維人員的各項(xiàng)管理制度。這些管理制度應(yīng)該主要包含(但不限于):

      ●《日?;顒?dòng)管理制度》; ●《人員安全操作制度》;

      ●《運(yùn)維人員基本素質(zhì)養(yǎng)成管理制度》; ●《安全運(yùn)行獎(jiǎng)懲制度》; ●《節(jié)能運(yùn)行獎(jiǎng)懲制度》; ●《技術(shù)創(chuàng)新獎(jiǎng)勵(lì)制度》; ●《人員晉升制度》; ●《人才儲(chǔ)備制度》; 3.2 培訓(xùn)及認(rèn)證

      3.2.1 員工培訓(xùn)及資格認(rèn)證計(jì)劃

      對(duì)于機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)新員工應(yīng)進(jìn)行完整及嚴(yán)格的培訓(xùn),以確保其盡快具備崗位需要之知識(shí)及能力。培訓(xùn)內(nèi)容應(yīng)包括機(jī)房基礎(chǔ)設(shè)施的所有系統(tǒng)的工作原理、操作流程、應(yīng)急預(yù)案、以及管理制度等。

      對(duì)于所有運(yùn)維人員宜設(shè)定以知識(shí)更新、技能提高為目標(biāo)的培訓(xùn)及認(rèn)證計(jì)劃。宜要求運(yùn)維人員不斷提升理論知識(shí),以便于在缺乏操作程序的應(yīng)急狀態(tài)下進(jìn)行正確的處置。

      可借助行業(yè)第三方專業(yè)培訓(xùn)及職業(yè)技能鑒定平臺(tái),積極開展運(yùn)維人員任職資格的評(píng)定工作。3.2.2 歷史事件分析學(xué)習(xí)

      運(yùn)維團(tuán)隊(duì)?wèi)?yīng)將機(jī)房基礎(chǔ)設(shè)施歷史事件的總結(jié)分析作為培訓(xùn)的重要素材,進(jìn)行全員培訓(xùn);對(duì)于新員工應(yīng)在上崗前予以培訓(xùn),以避免相同的事件再次發(fā)生。3.2.3 組織學(xué)習(xí)

      運(yùn)維團(tuán)隊(duì)管理者應(yīng)積極參與行業(yè)交流,了解行業(yè)最佳的運(yùn)維管理實(shí)踐,并從行業(yè)故障案例中總結(jié)經(jīng)驗(yàn),做好自身整改。3.3 運(yùn)維外包服務(wù)商

      3.3.1 基礎(chǔ)設(shè)施運(yùn)維外包服務(wù)商的選擇

      機(jī)房基礎(chǔ)設(shè)施屬于關(guān)鍵性設(shè)施,選擇外包運(yùn)維團(tuán)隊(duì)時(shí)應(yīng)考察其機(jī)房基礎(chǔ)設(shè)施的運(yùn)維服務(wù)的資質(zhì)、能力和經(jīng)驗(yàn)。如機(jī)房作為商業(yè)物業(yè)的一部分整體外包運(yùn)維,應(yīng)要求外包運(yùn)維機(jī)構(gòu)針對(duì)機(jī)房基礎(chǔ)設(shè)施設(shè)施部分設(shè)立專門的有機(jī)房基礎(chǔ)設(shè)施運(yùn)維經(jīng)驗(yàn)的團(tuán)隊(duì),并嚴(yán)格按機(jī)房基礎(chǔ)設(shè)施的運(yùn)維規(guī)程規(guī)范執(zhí)行。3.3.2 運(yùn)維外包服務(wù)商的管理

      對(duì)于外包服務(wù)商的員工的管理原則應(yīng)該參照運(yùn)維團(tuán)隊(duì)內(nèi)部員工同等要求,相關(guān)人員只有在進(jìn)行培訓(xùn)并得到相關(guān)的認(rèn)證后才能從事相關(guān)的工作。

      外包服務(wù)商需要嚴(yán)格遵循數(shù)機(jī)房基礎(chǔ)設(shè)施既定的操作流程和安全守則。

      機(jī)房基礎(chǔ)設(shè)施運(yùn)維管理的最終責(zé)任承擔(dān)者是機(jī)房管理者,責(zé)任無(wú)法外包。因此,機(jī)房應(yīng)保留運(yùn)維核心管理人員,對(duì)于外包團(tuán)隊(duì)的工作進(jìn)行審核、監(jiān)督和績(jī)效評(píng)估管理。設(shè)施管理建議 4.1 資產(chǎn)數(shù)據(jù)庫(kù)

      數(shù)據(jù)中心應(yīng)建立完整及實(shí)時(shí)更新的資產(chǎn)數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)應(yīng)包括所有關(guān)鍵基礎(chǔ)設(shè)施設(shè)備的清單,還應(yīng)記錄設(shè)備設(shè)施的運(yùn)行情況、事件情況、變更情況、維護(hù)保養(yǎng)頻次等信息。

      資產(chǎn)數(shù)據(jù)庫(kù)應(yīng)最少包括以下信息: 資產(chǎn)ID:每個(gè)資產(chǎn)的唯一標(biāo)識(shí)號(hào)

      種 類:一級(jí)分類(如電氣、制冷、消防系統(tǒng))子 類:二級(jí)分類(如 UPS、電池、PDU等)描 述:資產(chǎn)的文字說(shuō)明 制 造:資產(chǎn)的制造廠家 型 號(hào):制造廠家的產(chǎn)品型號(hào) 規(guī) 格:資產(chǎn)的規(guī)格或者標(biāo)稱值 位 置:位置 ID(房間或區(qū)域)購(gòu) 買 人:資產(chǎn)維護(hù)的負(fù)責(zé)人 序 列 號(hào):制造廠家的序列號(hào) 安裝日期:資產(chǎn)的投產(chǎn)日期 保修期限:保修到期的日期 更 換:預(yù)計(jì)的資產(chǎn)更換日期 維護(hù)頻次:年檢、季檢、月檢等 4.2 預(yù)防性維護(hù) 4.2.1 預(yù)防性維護(hù)計(jì)劃

      預(yù)防性維護(hù)是為了延長(zhǎng)設(shè)備的使用壽命和減少設(shè)備故障的概率而進(jìn)行的有計(jì)劃的維護(hù)。其目的是通過(guò)定期檢查和保養(yǎng),使設(shè)備的某些缺陷或隱患在變得更嚴(yán)重之前被發(fā)現(xiàn)。

      運(yùn)維團(tuán)隊(duì)?wèi)?yīng)根據(jù)系統(tǒng)設(shè)備情況與供應(yīng)商進(jìn)行溝通,按照供應(yīng)商的建議提前制定、季度、月度預(yù)防性維護(hù)計(jì)劃。各專業(yè)運(yùn)維人員需按照各設(shè)備系統(tǒng)特性、維護(hù)流程及規(guī)范,及時(shí)、完整地落實(shí)維護(hù)工作,并形成客觀實(shí)際的記錄和報(bào)告予以存檔。運(yùn)維團(tuán)隊(duì)還應(yīng)定期對(duì)設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和趨勢(shì)量化分析,對(duì)于異常的趨勢(shì),做出報(bào)警及相關(guān)預(yù)案。預(yù)防性維護(hù)包括并不限于以下系統(tǒng)設(shè)備或內(nèi)容: ●冷水機(jī)組、精密空調(diào); ●UPS,開關(guān)、和發(fā)電機(jī)組; ●消防系統(tǒng)和監(jiān)控系統(tǒng)檢驗(yàn); ●蓄電池放電測(cè)試;

      ●配電裝置(高低壓配電裝置)的絕緣性定期試驗(yàn); ●二次保護(hù)定值實(shí)驗(yàn);

      ●每年雨季之前進(jìn)行的數(shù)據(jù)中心防雷接地裝置測(cè)試等。4.2.2 工單管理

      運(yùn)維團(tuán)隊(duì)?wèi)?yīng)建立預(yù)防性維護(hù)及保養(yǎng)的工單管理系統(tǒng),工單應(yīng)列出工作內(nèi)容、完成相應(yīng)工作需要的工具及備件、工作預(yù)計(jì)完成的時(shí)間、工作負(fù)責(zé)人等信息。

      計(jì)算機(jī)化維護(hù)管理系統(tǒng)應(yīng)該對(duì)每份工單從產(chǎn)生到完成進(jìn)行全程的跟蹤。4.3 操作流程

      機(jī)房基礎(chǔ)設(shè)施的所有操作,均應(yīng)事先制定詳細(xì)的操作流程,經(jīng)過(guò)審核后存檔并在后期運(yùn)行階段嚴(yán)格執(zhí)行。4.3.1 維護(hù)作業(yè)程序MOP 對(duì)機(jī)房關(guān)鍵基礎(chǔ)設(shè)施設(shè)備的每次維護(hù)、維修、安裝操作,都應(yīng)事先制定一份MOP。可要求設(shè)備供應(yīng)商提供MOP的建議,但對(duì)于MOP最終確認(rèn)審核的責(zé)任在于運(yùn)維團(tuán)隊(duì),批準(zhǔn)責(zé)任在于運(yùn)維管理團(tuán)隊(duì)。4.3.2 標(biāo)準(zhǔn)操作流程SOP 所有關(guān)鍵基礎(chǔ)設(shè)施設(shè)備在各種情況下都能執(zhí)行的常用操作都應(yīng)制定標(biāo)準(zhǔn)操作流程SOP。例如手動(dòng)啟動(dòng)發(fā)電機(jī)組的操作流程,或?qū)PS轉(zhuǎn)換到旁路的操作流程等。4.3.3 應(yīng)急操作流程EOP 應(yīng)急操作流程適用于有可能發(fā)生的嚴(yán)重故障情況。以下為部分嚴(yán)重故障的例子:

      ●一路市電供電時(shí)中斷; ●雙路市電供電時(shí)同時(shí)中斷; ●單個(gè)精密空調(diào)時(shí)故障停機(jī); ●全部精密空調(diào)都故障停機(jī); ●單臺(tái)UPS時(shí)故障停機(jī)。4.4 工具及備件管理

      運(yùn)維團(tuán)隊(duì)?wèi)?yīng)根據(jù)資產(chǎn)分類清單及其分類制定最低備件庫(kù)存清單并及時(shí)補(bǔ)充備件。

      測(cè)試分析儀器儀表方面可配備進(jìn)行電氣性能參數(shù)測(cè)試、電池測(cè)試、接地電阻測(cè)試、絕緣性能測(cè)試、設(shè)備運(yùn)行溫度測(cè)試、風(fēng)速測(cè)試、環(huán)境溫度測(cè)試、噪音測(cè)試等的儀器儀表。儀器儀表應(yīng)該定期校準(zhǔn)。

      應(yīng)制定相關(guān)規(guī)定對(duì)操作工具、儀器儀表實(shí)行人員負(fù)責(zé)制或者交接班負(fù)責(zé)制等管理制度。備件和工具應(yīng)定期進(jìn)行盤點(diǎn)。4.5 供應(yīng)商管理

      應(yīng)該按照機(jī)房基礎(chǔ)設(shè)施運(yùn)維的資質(zhì)、以往的經(jīng)驗(yàn)、業(yè)界的口碑等因素,以注重預(yù)防性和預(yù)測(cè)性維護(hù)和提高可用性的相同標(biāo)準(zhǔn)來(lái)選擇合格的供應(yīng)商。

      所有供應(yīng)商到達(dá)機(jī)房執(zhí)行維護(hù)程序之前,應(yīng)通過(guò)機(jī)房相關(guān)規(guī)程的培訓(xùn),獲得機(jī)房運(yùn)維團(tuán)隊(duì)和運(yùn)維管理層的批準(zhǔn)。在執(zhí)行維護(hù)活動(dòng)的過(guò)程中要嚴(yán)格遵循操作流程。操作時(shí)需由運(yùn)維團(tuán)隊(duì)的人員陪同并監(jiān)督記錄流程的執(zhí)行情況。

      供應(yīng)商的每次機(jī)房維護(hù)活動(dòng)都應(yīng)該提交現(xiàn)場(chǎng)服務(wù)報(bào)告并存檔。運(yùn)維團(tuán)隊(duì)?wèi)?yīng)該建立供應(yīng)商的績(jī)效評(píng)估方案,并定期對(duì)供應(yīng)商進(jìn)行績(jī)效評(píng)估。應(yīng)設(shè)立供應(yīng)商管理文檔,記錄所有供應(yīng)商的聯(lián)系方式、服務(wù)承諾(SLA)、工作范圍、針對(duì)設(shè)施的培訓(xùn)和認(rèn)證情況等信息。4.6 生命周期管理

      應(yīng)基于設(shè)施設(shè)備的合理生命周期,結(jié)合風(fēng)險(xiǎn)評(píng)估,制定設(shè)備維護(hù)、升級(jí)或更換的計(jì)劃及預(yù)算,及時(shí)報(bào)告給運(yùn)維管理部門。

      風(fēng)險(xiǎn)評(píng)估主要評(píng)估內(nèi)容包括: ●資產(chǎn)重要性識(shí)別; ●資產(chǎn)威脅識(shí)別; ●資產(chǎn)脆弱性識(shí)別; ●風(fēng)險(xiǎn)值的計(jì)算;

      ●在評(píng)估更換設(shè)備的方案時(shí),可綜合考慮原有設(shè)備的維護(hù)費(fèi)用以及新設(shè)備在能效方面的改進(jìn),做好綜合投資回報(bào)分析;

      ●對(duì)于冗余設(shè)備宜設(shè)立輪換運(yùn)行機(jī)制,以延長(zhǎng)整體設(shè)備的生命周期。

      4.7 運(yùn)維管理系統(tǒng) 機(jī)房可建立自動(dòng)化維護(hù)管理系統(tǒng)(MMS),集中實(shí)現(xiàn)資產(chǎn)管理、維護(hù)調(diào)度、信息安全、文檔管理、工單管理的職能并記錄所有的運(yùn)維工作任務(wù)及完成情況。運(yùn)行管理建議 5.1 運(yùn)行管理制度

      機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)建立并嚴(yán)格執(zhí)行運(yùn)行管理制度,包括:5.1.1 巡檢相關(guān)管理制度

      ●日常巡視巡檢管理制度; ●值班管理制度; ●交接班管理制度; ●通知矩陣。

      5.1.2 工作流程相關(guān)管理制度

      ●工單處理流程; ●例會(huì)制度;

      ●工作總結(jié)報(bào)告制度(日、周、月、季、年總結(jié)報(bào)告);●交付管理規(guī)范;

      ●運(yùn)維質(zhì)量管理辦法文檔管理制度; ●工具備件管理制度。5.1.3 安全相關(guān)管理制度

      ●機(jī)房出入管理制度; ●機(jī)房現(xiàn)場(chǎng)管理制度;

      ●機(jī)房衛(wèi)生管理制度; ●信息安全相關(guān)管理制度。5.1.4 故障處理管理制度

      ●設(shè)備操作管理制度; ●設(shè)備故障處理流程; ●應(yīng)急準(zhǔn)備和應(yīng)急響應(yīng)流程; ●維護(hù)作業(yè)計(jì)劃管理制度; ●故障隱患跟蹤反饋管理制度; ●緊急事件匯報(bào)流程。5.1.5 經(jīng)營(yíng)相關(guān)管理制度

      ●員工行為規(guī)范; ●考勤管理制度; ●人員管理考核制度。

      5.2 設(shè)施監(jiān)控、巡檢、及交接班管理

      應(yīng)配備環(huán)境、動(dòng)力、安防等監(jiān)控系統(tǒng)以便于運(yùn)維人員及時(shí)了解設(shè)施各系統(tǒng)及設(shè)備的運(yùn)行狀態(tài)和及時(shí)發(fā)現(xiàn)異常情況。

      應(yīng)規(guī)定相應(yīng)的運(yùn)行人員對(duì)設(shè)施運(yùn)行狀態(tài)的巡視頻次、巡視工作內(nèi)容及規(guī)范。

      運(yùn)行人員交接班時(shí)應(yīng)對(duì)當(dāng)班執(zhí)行的操作、變更及觀察到的任何異常數(shù)據(jù)或現(xiàn)象進(jìn)行交接和簽收。5.3 機(jī)房清潔管理

      應(yīng)劃定保潔區(qū)域,定期做好機(jī)房保潔工作,保證地板及地板下的無(wú)塵狀態(tài)。重要區(qū)域進(jìn)行保潔工作時(shí)應(yīng)有運(yùn)維人員現(xiàn)場(chǎng)監(jiān)督和指導(dǎo)。5.4 標(biāo)簽標(biāo)識(shí)管理

      應(yīng)建立針對(duì)數(shù)據(jù)中心場(chǎng)地基礎(chǔ)設(shè)施設(shè)備和物理環(huán)境完整的、清晰的標(biāo)簽標(biāo)識(shí)管理系統(tǒng)。應(yīng)至少包括:

      ●設(shè)備標(biāo)識(shí):包括設(shè)備名稱、型號(hào)、編號(hào)、資產(chǎn)編號(hào)等; ●線纜標(biāo)識(shí):包括起始端信息、終止端信息、設(shè)備名稱等; ●警示標(biāo)識(shí):如“設(shè)備已帶電/危險(xiǎn)”、“禁止合閘”、“禁止分閘”等;

      ●物理環(huán)境標(biāo)識(shí):如位置標(biāo)識(shí)、區(qū)域標(biāo)識(shí)等;

      ●系統(tǒng)圖展板標(biāo)識(shí):如電氣、暖通、消防、弱電系統(tǒng)圖展板。這類標(biāo)識(shí)便于運(yùn)維人員清晰、快捷地掌握區(qū)域及整個(gè)數(shù)據(jù)中心系統(tǒng)的配電、制冷、消防、弱電的原理及關(guān)鍵點(diǎn)位。5.5 變更管理

      任何對(duì)于設(shè)施運(yùn)行狀態(tài)的變更應(yīng)進(jìn)行預(yù)先的風(fēng)險(xiǎn)分析,并基于風(fēng)險(xiǎn)等級(jí),設(shè)定相應(yīng)級(jí)別的事前審核流程。在變更方案及變更時(shí)間窗口確認(rèn)后,應(yīng)進(jìn)行相應(yīng)范圍的告知。變更結(jié)束后,應(yīng)向相應(yīng)范圍部門通報(bào)變更結(jié)果。5.6 事件管理

      應(yīng)制定事件管理流程,明確不同等級(jí)事件下相應(yīng)的處理流程。5.6.1 事件等級(jí)定義

      一般事件:任何沒(méi)有達(dá)到機(jī)房設(shè)計(jì)和運(yùn)行標(biāo)準(zhǔn)的異常事件; 嚴(yán)重事件:任何沒(méi)有達(dá)到機(jī)房設(shè)計(jì)、運(yùn)行標(biāo)準(zhǔn)的事件,且對(duì)提供的服務(wù)造成中斷的事件;

      重大事件:任何沒(méi)有達(dá)到機(jī)房設(shè)計(jì)、運(yùn)行標(biāo)準(zhǔn)的事件,且對(duì)提供的服務(wù)造成中斷,且影響范圍大的事件。5.6.2 事件升級(jí)

      當(dāng)事件暫時(shí)無(wú)法排除,需要逐級(jí)報(bào)告,進(jìn)入事件升級(jí)流程。如遇特殊情況,與直接主管聯(lián)系不上時(shí),可越級(jí)向上一級(jí)主管報(bào)告。

      5.7 應(yīng)急響應(yīng)

      5.7.1 設(shè)施應(yīng)急預(yù)案演練

      運(yùn)維團(tuán)隊(duì)?wèi)?yīng)針對(duì)應(yīng)急操作流程EOP進(jìn)行定期的演練工作,主要包括:

      ●沙盤演練:參與演練的運(yùn)維人員集合,并分別口述在發(fā)生緊急情況下自身所應(yīng)承擔(dān)的職責(zé)及將會(huì)執(zhí)行的方案及步驟;

      ●跑位演練:參與演練的人員跑位到模擬故障現(xiàn)場(chǎng),模擬處理故障,參與人員應(yīng)清晰地說(shuō)出故障的處理方案及步驟。

      應(yīng)急演練的演練原則是:盡量接近真實(shí)情況,在條件允許的情況下盡量真實(shí)地處理故障。在運(yùn)行中的一些特定場(chǎng)景下也可以進(jìn)行應(yīng)急演練,如發(fā)電機(jī)帶載實(shí)驗(yàn)等。5.7.2 人員安全應(yīng)急流程

      機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)針對(duì)影響運(yùn)維人員健康的人身事故制定應(yīng)急流程并定期演練。應(yīng)急流程可包括設(shè)置現(xiàn)場(chǎng)急救包以及聯(lián)系當(dāng)?shù)蒯t(yī)療急救機(jī)構(gòu)的方式等。5.8 容量管理

      容量管理可包括但不限于以下方面: 5.8.1 空間容量

      ●IT設(shè)備擺放空間; ●基礎(chǔ)設(shè)備設(shè)施擺放空間; ●綜合布線線路空間,配線架管理。5.8.2 能力容量

      ●電力供應(yīng)容量; ●空調(diào)供應(yīng)容量; ●綜合布線信息點(diǎn)容量; ●互聯(lián)網(wǎng)接入容量。

      設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)與IT 部門定期溝通,動(dòng)態(tài)了解IT需求的預(yù)測(cè),并通報(bào)設(shè)施容量的使用情況。可制定3個(gè)月至36個(gè)月周期的IT需求及設(shè)施可用容量?jī)烧叩膶?duì)比分析表。

      當(dāng)機(jī)房基礎(chǔ)設(shè)施不能滿足IT增長(zhǎng)的需求時(shí),應(yīng)提前制定并上報(bào)擴(kuò)容或者新建機(jī)房的計(jì)劃。5.9 能效管理 5.9.1 能效監(jiān)測(cè)

      機(jī)房基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)?wèi)?yīng)了解并記錄機(jī)房在不同工況及不同外界氣候條件下的電力使用效率 PUE 的變化情況,從中發(fā)現(xiàn)趨勢(shì),以不斷優(yōu)化運(yùn)行方案。5.9.2 了解IT設(shè)備運(yùn)行特征 機(jī)房基礎(chǔ)設(shè)施運(yùn)維人員應(yīng)具備一定的IT設(shè)備相關(guān)知識(shí),了解服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等設(shè)備的運(yùn)行特點(diǎn)和功耗情況。還應(yīng)了解客戶或用戶的業(yè)務(wù)基本情況,了解IT 設(shè)備的運(yùn)行峰谷期。

      應(yīng)與客戶或用戶相關(guān)部門做好溝通,針對(duì)高密度IT負(fù)載的部署做出預(yù)測(cè),并制定相關(guān)應(yīng)對(duì)方案。5.9.3 管理氣流組織

      應(yīng)封堵設(shè)施建筑所有可能的漏風(fēng)口,維持設(shè)施的正壓。應(yīng)疏導(dǎo)設(shè)施內(nèi)氣流的流向、封堵所有可能的漏風(fēng)口、對(duì)機(jī)柜內(nèi)所有空閑U位安裝盲板、關(guān)閉不必要的出風(fēng)口、保證冷空氣的最佳使用效率。

      5.9.4 運(yùn)行閾值設(shè)定

      應(yīng)基于安全性及運(yùn)行效率的綜合考慮,建立運(yùn)行閾值設(shè)定指南,設(shè)置監(jiān)控報(bào)警閾值、空調(diào)回風(fēng)溫度等。5.10 預(yù)算管理

      運(yùn)維團(tuán)隊(duì)?wèi)?yīng)做好運(yùn)維財(cái)務(wù)預(yù)算,上報(bào)主管領(lǐng)導(dǎo)及財(cái)務(wù)部門,并做好預(yù)算必要性的溝通解釋工作。

      預(yù)算應(yīng)包括但不限于以下內(nèi)容: ●基于SLA的人力預(yù)算; ●備件及工具、儀器采購(gòu)費(fèi)用; ●應(yīng)急維護(hù)材料費(fèi)用;

      ●專業(yè)外包維保和應(yīng)急服務(wù)費(fèi)用; ●政策性等強(qiáng)制檢測(cè)服務(wù)費(fèi)用; ●整改或節(jié)能改造預(yù)算; ●突發(fā)問(wèn)題備用金。

      第四篇:云數(shù)據(jù)中心運(yùn)維問(wèn)題解析

      1、云計(jì)算時(shí)代的到來(lái),數(shù)據(jù)中心的運(yùn)行管理工作必然會(huì)產(chǎn)生新的問(wèn)題,提出新的要求,您認(rèn)為,數(shù)據(jù)中心運(yùn)維工作發(fā)生了哪些改變?

      云計(jì)算是當(dāng)下的技術(shù)熱點(diǎn),云數(shù)據(jù)中心是提供云計(jì)算服務(wù)的核心,是傳統(tǒng)數(shù)據(jù)中心的升級(jí)。

      無(wú)論是傳統(tǒng)的數(shù)據(jù)中心,還是云數(shù)據(jù)中心,從他們的生命周期來(lái)看,運(yùn)維管理都是整個(gè)生命周期中歷時(shí)最長(zhǎng)的一個(gè)階段。

      云數(shù)據(jù)中心的運(yùn)維工作需要我們仔細(xì)分析,認(rèn)真對(duì)待。從開源云計(jì)算社區(qū)openstack發(fā)布的模塊來(lái)看,截止2014年11月,社區(qū)共有項(xiàng)目模塊450個(gè)左右,模塊數(shù)量前三的類型是“運(yùn)維”、“易用性”、“上層服務(wù)”,其中運(yùn)維模塊數(shù)量第一,占到了153個(gè)??梢娫朴?jì)算的技術(shù)動(dòng)向基本上圍繞“如何運(yùn)維”和“如何使用”。

      我們今天的話題就先來(lái)說(shuō)一說(shuō)云數(shù)據(jù)中心運(yùn)維的變化。說(shuō)到云數(shù)據(jù)中心運(yùn)維工作的變化,就要分析云的特點(diǎn)。云時(shí)代數(shù)據(jù)中心最明顯的特點(diǎn)就是虛擬化技術(shù)的大量應(yīng)用,這使得運(yùn)維管理的對(duì)象發(fā)生了變化:

      一、云數(shù)據(jù)中心運(yùn)維對(duì)象數(shù)量激增。虛擬化技術(shù)將1臺(tái)物理服務(wù)器虛擬為多臺(tái)虛擬服務(wù)器,如果數(shù)據(jù)中心支撐業(yè)務(wù)需求規(guī)模不變的話,所需要的物理服務(wù)器數(shù)量將會(huì)減少,這與很多人認(rèn)為的運(yùn)維服務(wù)器數(shù)量激增是不符的,那么這個(gè)“激增”認(rèn)識(shí)是如何產(chǎn)生的呢??梢赃@樣分析,由于虛擬化技術(shù)進(jìn)一步提高了數(shù)據(jù)中心各種資源的使用效率,同時(shí)大幅提高了業(yè)務(wù)需求響應(yīng)能力,所以多個(gè)傳統(tǒng)數(shù)據(jù)中心合并為一個(gè)云數(shù)據(jù)中心在技術(shù)上成為了可能。很多跨國(guó)企業(yè)采用云計(jì)算技術(shù),實(shí)現(xiàn)數(shù)據(jù)中心10:1到20:1的合并效果,也就是說(shuō)如果原來(lái)在全球建設(shè)1000個(gè)數(shù)據(jù)中心,那么現(xiàn)在可以由50到100個(gè)云數(shù)據(jù)中心實(shí)現(xiàn)對(duì)業(yè)務(wù)的支撐,在一個(gè)合并后的云數(shù)據(jù)中心內(nèi),所要運(yùn)維的服務(wù)器數(shù)量絕對(duì)可以稱得上“激增”,這里所說(shuō)的服務(wù)器既包括物理服務(wù)器也包括虛擬服務(wù)器。與此同時(shí),運(yùn)維崗位也就是運(yùn)維人員雖然也進(jìn)行了調(diào)整,但是人員增加的幅度遠(yuǎn)低于設(shè)備的增漲幅度,也就是人均運(yùn)維設(shè)備數(shù)量增加了很多,在這種情況下,如果不借助工具、系統(tǒng),很難完成運(yùn)維工作。

      二、在傳統(tǒng)數(shù)據(jù)中心中,設(shè)備都是物理的、真實(shí)的,位置也是相對(duì)固定,對(duì)業(yè)務(wù)系統(tǒng)來(lái)講,交換網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)設(shè)備對(duì)象之間關(guān)聯(lián)也是比較固定的,管理起來(lái)相對(duì)直觀。在云數(shù)據(jù)中心,虛擬化帶來(lái)了資源的池化,使得一切管理對(duì)象變成虛擬的、可靈活遷移的邏輯存在。虛擬資源可以隨時(shí)創(chuàng)建、刪除,再加上高可用需求、性能優(yōu)化需求帶來(lái)的虛擬資源遷移,虛擬資源所在的位置變得不固定了,虛擬資源與物理資源的關(guān)系也被解耦了,原來(lái)很多能說(shuō)得清、找得到的資源現(xiàn)在不借助工具就再也無(wú)法說(shuō)得清、找得到了。

      三、在傳統(tǒng)數(shù)據(jù)中心中,設(shè)備監(jiān)控主要是采集故障、性能數(shù)據(jù),容量一般來(lái)講還不是運(yùn)維層面的問(wèn)題,而是規(guī)劃的問(wèn)題,當(dāng)然這也帶來(lái)了業(yè)務(wù)系統(tǒng)豎井、數(shù)據(jù)中心豎井的問(wèn)題,以及業(yè)務(wù)資源申請(qǐng)周期長(zhǎng)的問(wèn)題。在云數(shù)據(jù)中心中,容量不僅是規(guī)劃問(wèn)題,同時(shí)也是一個(gè)運(yùn)維問(wèn)題。也就是說(shuō),在日常工作中,需要隨時(shí)采集資源池容量數(shù)據(jù),不僅要看資源池的總?cè)萘?,還要看容量在各個(gè)物理宿主機(jī)上分布情況,以便滿足高可用和遷移的需要。

      四、云數(shù)據(jù)中心在管理虛擬設(shè)備時(shí),接口的標(biāo)準(zhǔn)化問(wèn)題。在傳統(tǒng)數(shù)據(jù)中心內(nèi),物理設(shè)備已經(jīng)形成了接口標(biāo)準(zhǔn),提供運(yùn)維數(shù)據(jù),如snmp、netflow等。而對(duì)虛擬化設(shè)備,還沒(méi)有形成國(guó)標(biāo)或行標(biāo),對(duì)虛擬設(shè)備的運(yùn)維還需要采用廠家標(biāo)準(zhǔn)。如果在一個(gè)云數(shù)據(jù)中心中采用了多個(gè)廠家的虛擬化系統(tǒng),運(yùn)維人員就需要熟悉多個(gè)廠家的界面。這個(gè)問(wèn)題的解決,短期來(lái)看,需要一個(gè)融合的系統(tǒng),為運(yùn)維人員屏蔽多廠家虛擬化系統(tǒng)的差異,長(zhǎng)期來(lái)看,希望能夠形成各廠家虛擬化系統(tǒng)的統(tǒng)一接口標(biāo)準(zhǔn)。

      云計(jì)算帶來(lái)了IT服務(wù)成本的降低,提高了應(yīng)對(duì)業(yè)務(wù)需求的敏捷性,同時(shí),我們也要看到,如果云數(shù)據(jù)中心運(yùn)維管理調(diào)整不及時(shí),不但運(yùn)維工作量不減反增,而且運(yùn)維水平還會(huì)降低。

      2、當(dāng)數(shù)據(jù)中心發(fā)展到一定的規(guī)模,人們?cè)跀?shù)據(jù)中心管控要求的基礎(chǔ)上,強(qiáng)調(diào)了流程化、自動(dòng)化運(yùn)維的模式,以便數(shù)據(jù)中心的運(yùn)維工作能夠更加快捷高效的開展起來(lái),數(shù)據(jù)中心步入云時(shí)代,對(duì)于運(yùn)維工作的流程化、自動(dòng)化要求,云管理系統(tǒng)能給用戶帶來(lái)哪些價(jià)值? 虛擬化技術(shù)是云數(shù)據(jù)中心的特點(diǎn),但是云數(shù)據(jù)中心不僅僅是虛擬化。云數(shù)據(jù)中心響應(yīng)業(yè)務(wù)需求的敏捷性,基于虛擬化,這是云數(shù)據(jù)中心的技術(shù)基礎(chǔ)。

      云數(shù)據(jù)中心以租用的方式向資源用戶提供云服務(wù),包括IaaS、PaaS、SaaS。從運(yùn)維的角度講,云服務(wù)的提供者要如何保障用戶獲得需要的服務(wù)呢。

      云管理系統(tǒng)保障分配資源給用戶的動(dòng)作是自動(dòng)化的,也就是說(shuō)所有操作完全在線上完成,并且支持批量處理。

      在云管理系統(tǒng)中,可創(chuàng)建并保存三個(gè)層面的資源模板,分別對(duì)應(yīng)IaaS、PaaS、SaaS三個(gè)服務(wù)層面。用戶申請(qǐng)某個(gè)或某些服務(wù)時(shí),云管理系統(tǒng)就會(huì)按照相應(yīng)的模版去創(chuàng)建資源。這是最基本的虛擬資源分配動(dòng)作。

      復(fù)雜一些的操作是可配置參數(shù)的資源模板,用戶在申請(qǐng)服務(wù)時(shí)或運(yùn)維人員在點(diǎn)擊資源創(chuàng)建按鈕前,可以傳遞一些參數(shù)給創(chuàng)建程序,如操作系統(tǒng)的用戶名、密碼,那么云管理系統(tǒng)在基于相應(yīng)模板創(chuàng)建虛擬服務(wù)器時(shí),會(huì)按照參數(shù)設(shè)置服務(wù)器操作系統(tǒng)管理員的賬號(hào)信息。

      再?gòu)?fù)雜一些的自動(dòng)化動(dòng)作,是基于模板組合進(jìn)行的、有順序的、有條件的動(dòng)作序列,一般用作響應(yīng)需要多個(gè)資源進(jìn)行部署的業(yè)務(wù)系統(tǒng)的服務(wù)申請(qǐng),通過(guò)一系列操作,為該業(yè)務(wù)系統(tǒng)分配網(wǎng)絡(luò)地址、服務(wù)器、存儲(chǔ)空間,并進(jìn)行相關(guān)的配置,可定義動(dòng)作執(zhí)行的順序以及后續(xù)動(dòng)作執(zhí)行的前提條件。對(duì)于特別復(fù)雜的動(dòng)作組,允許進(jìn)一步分割,也就是定義子動(dòng)作組。

      上述三種操作都是線上的、自動(dòng)化完成的,這樣的好處就是提高效率。云計(jì)算的好處之一就是敏捷分配,如果用戶申請(qǐng)后,還要線下做很多配置,就會(huì)明顯延長(zhǎng)服務(wù)交付時(shí)間。同時(shí)基于模板的自動(dòng)化操作也減少了人工線下操作的不確定性。

      上面說(shuō)完了運(yùn)維的自動(dòng)化,下面再說(shuō)一下流程化。在云管理系統(tǒng)中,服務(wù)流程既包含了ITIL流程,如事件管理、問(wèn)題管理、變更管理、發(fā)布管理等,同時(shí)也包含了云服務(wù)申請(qǐng)和審批的流程,如服務(wù)開通、服務(wù)變更、服務(wù)終止等。云管理系統(tǒng)還提供流程設(shè)計(jì)器和表單設(shè)計(jì)器,方便運(yùn)維人員修改系統(tǒng)提供的服務(wù)流程,或者根據(jù)需要新建流程。

      3、云時(shí)代數(shù)據(jù)中心最明顯的特點(diǎn)就是虛擬化技術(shù)的大量應(yīng)用,這使得管理的對(duì)象也在變化。以前的設(shè)備都是真實(shí)的,位置也是相對(duì)固定,管理起來(lái)相對(duì)直觀。而應(yīng)用虛擬化技術(shù)的結(jié)果是將這些資源進(jìn)行“池化”,使得一切管理對(duì)象變成虛擬的、可遷移的存在,如何幫助用戶面對(duì)這種挑戰(zhàn)?

      我們?cè)谡勗茢?shù)據(jù)中心運(yùn)維變化時(shí),曾經(jīng)提到過(guò)這個(gè)問(wèn)題。在云數(shù)據(jù)中心,虛擬化帶來(lái)了資源的池化,使得管理對(duì)象變成虛擬的、可靈活遷移的邏輯存在。運(yùn)維人員很難再說(shuō)清楚虛擬資源與物理資源的對(duì)應(yīng)關(guān)系。

      云管理系統(tǒng)會(huì)采集虛擬資源的運(yùn)行數(shù)據(jù),即時(shí)掌握資源之間的關(guān)系。首先是虛擬資源與物理資源的關(guān)聯(lián)信息,比如虛擬機(jī)運(yùn)行在哪臺(tái)物理機(jī)上。其次,虛擬資源與虛擬資源的關(guān)系,如某臺(tái)虛擬機(jī)與哪個(gè)虛擬網(wǎng)絡(luò)設(shè)備的端口連接,某個(gè)虛擬磁盤掛載到了哪個(gè)虛擬服務(wù)器上。第三,物理資源與空間資源的關(guān)聯(lián),可以定位資源的實(shí)際部署位置。第四,物理資源與物理資源的關(guān)聯(lián)關(guān)系。第三點(diǎn)與第四點(diǎn)與傳統(tǒng)數(shù)據(jù)中處理方式并無(wú)不同。第五,云管理系統(tǒng),還能夠管理資源與業(yè)務(wù)系統(tǒng)的關(guān)系,以及資源與用戶的關(guān)系。

      通過(guò)云管理系統(tǒng),運(yùn)維人員可以即時(shí)掌握云數(shù)據(jù)中心中有哪些資源,資源的運(yùn)行情況,以及資源之間的鏈接,資源分配給了哪個(gè)用戶、哪個(gè)業(yè)務(wù)系統(tǒng),資源在哪,這個(gè)在哪既包括了虛擬資源的分布也包括了物理資源的位置。

      可以這么說(shuō),云管理系統(tǒng)以服務(wù)租用的方式向最終用戶屏蔽了云數(shù)據(jù)中心內(nèi)的資源情況,但是運(yùn)維人員通過(guò)云管理系統(tǒng)能夠清清楚楚、明明白白的掌握資源情況,包括虛擬的資源,也包括傳統(tǒng)的資源。

      4、目前,云數(shù)據(jù)中心管理的最大挑戰(zhàn)除了上面提到的流程化、自動(dòng)化和虛擬化,同時(shí)還要實(shí)現(xiàn)異構(gòu)資源的融合管理,在這方面云管理系統(tǒng)是如何滿足的? 我們?cè)谡勗茢?shù)據(jù)中心變化時(shí),曾經(jīng)提到過(guò),如果云數(shù)據(jù)中心同時(shí)存在多個(gè)虛擬化系統(tǒng),由于提供商執(zhí)行各自的廠家標(biāo)準(zhǔn),要如何去運(yùn)維。當(dāng)時(shí)我們提到了“融合”,也就是通過(guò)一個(gè)統(tǒng)一的管理系統(tǒng),去融合、去屏蔽多個(gè)虛擬化系統(tǒng)的差異。

      需要融合的虛擬化系統(tǒng)有很多,有商業(yè)產(chǎn)品,也有開源系統(tǒng),在這我們不一一說(shuō)明。但這只是虛擬資源范疇的融合,在我們實(shí)際的云數(shù)據(jù)中心運(yùn)維工程中,我們發(fā)現(xiàn),現(xiàn)階段國(guó)內(nèi)的很多云數(shù)據(jù)中心并沒(méi)有全盤的虛擬化,這種現(xiàn)象在企業(yè)云數(shù)據(jù)中心中尤其普遍。企業(yè)中一部分業(yè)務(wù)系統(tǒng)部署在虛擬環(huán)境中,另外一部分業(yè)務(wù)系統(tǒng)部署在物理環(huán)境中,還有一些業(yè)務(wù)系統(tǒng),部署環(huán)境同時(shí)存在物理資源及虛擬資源。

      基于這種情況,云管理系統(tǒng)進(jìn)一步擴(kuò)大了“融合”的范疇,管理的資源范圍不僅包括虛擬資源,還包括數(shù)據(jù)中心的物理資源、空間資源、動(dòng)環(huán)資源,這樣就把云數(shù)據(jù)中心全面地管理起來(lái),既有傳統(tǒng)的,也有虛擬的,而且傳統(tǒng)資源和虛擬資源結(jié)合起來(lái)管理,使得云數(shù)據(jù)中心的運(yùn)維更加的智能。比如,我要分配一個(gè)虛擬服務(wù)器,如果有動(dòng)環(huán)資源的信息,我不僅可以基于宿主機(jī)也就是物理服務(wù)器的使用情況做策略,還可以考慮服務(wù)器所在區(qū)域的電能、冷能信息。

      云數(shù)據(jù)中心是傳統(tǒng)數(shù)據(jù)中心的升級(jí),那么云數(shù)據(jù)中心的運(yùn)維也應(yīng)該是傳統(tǒng)數(shù)據(jù)中心的運(yùn)維升級(jí),不應(yīng)該缺少原有的運(yùn)維能力。

      5、云數(shù)據(jù)中心解決了業(yè)務(wù)系統(tǒng)部署的煙囪問(wèn)題,通過(guò)資源池化及資源自動(dòng)調(diào)度實(shí)現(xiàn)了靈活統(tǒng)一的業(yè)務(wù)部署,但不同的業(yè)務(wù)系統(tǒng)有其固有的專業(yè)性,對(duì)網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)的規(guī)格要求各不相同,各個(gè)業(yè)務(wù)系統(tǒng)的服務(wù)要求、監(jiān)控要求、故障處理要求等也存在差異,要做到業(yè)務(wù)系統(tǒng)的統(tǒng)一部署,又要滿足特定需要,對(duì)于云數(shù)據(jù)中心“求同存異”的挑戰(zhàn),云管理系統(tǒng)是如何克服的?

      云管理系統(tǒng)以服務(wù)租用的方式對(duì)云服務(wù)用戶屏蔽了云數(shù)據(jù)中心的資源細(xì)節(jié)。以計(jì)算資源舉例,一般情況下,云服務(wù)用戶所看到的、分配給自己的服務(wù)器CPU配置都是虛擬的,也就是vCPU,他和物理CPU之間并沒(méi)有一個(gè)統(tǒng)一的對(duì)應(yīng)關(guān)系,甲用戶和乙用戶同樣的虛擬服務(wù)器配置,可能由于宿主機(jī)品牌、型號(hào)、虛擬化方式、超配策略等,在計(jì)算能力上會(huì)有較大差異,當(dāng)然,云服務(wù)提供的成本也會(huì)存在差異。這個(gè)差異再加上監(jiān)控、維護(hù)等增值服務(wù)要求的差異,構(gòu)成了不同等級(jí)的服務(wù)水平要求。

      云管理系統(tǒng)在資源池劃分方式上支持這種服務(wù)水平的差異性管理。云管理系統(tǒng)支持幾種劃分資源池的方式,其中一種就是按資源池等級(jí)進(jìn)行劃分并進(jìn)行管理。可以定義不同等級(jí)的資源池,如金牌、銀牌、銅牌,把物理資源及虛擬資源調(diào)度到不同等級(jí)的資源池中,用戶、業(yè)務(wù)系統(tǒng)具有相應(yīng)等級(jí)資源池的配額,在配額內(nèi)可以申請(qǐng)、使用資源。其實(shí),關(guān)于資源劃分等級(jí)的做法在傳統(tǒng)數(shù)據(jù)中心就有,在云數(shù)據(jù)中心中只是加入了虛擬資源而已。

      6、對(duì)于數(shù)據(jù)中心而言,能效的問(wèn)題為大家所關(guān)注,綠色數(shù)據(jù)中心的話題也一直再提,云管理系統(tǒng)是否能有效幫助云數(shù)據(jù)中心降低能耗?

      虛擬化技術(shù)帶來(lái)的一個(gè)好處就是降低能耗,這是基于虛擬機(jī)遷移技術(shù)實(shí)現(xiàn)的。前提是業(yè)務(wù)量在某一時(shí)間段內(nèi)下降,物理機(jī)資源在這段時(shí)間內(nèi)存在一定比例的空閑。最好是空閑的比例和時(shí)間是能夠預(yù)見的,一般來(lái)講,這個(gè)時(shí)間是夜晚。在這個(gè)相對(duì)空閑的周期內(nèi),通過(guò)遷移虛擬機(jī)到值班物理服務(wù)器的方式,實(shí)現(xiàn)部分物理服務(wù)器關(guān)機(jī)休息,達(dá)到省電的目的。

      云管理系統(tǒng)同樣采用這種方式,通過(guò)一段時(shí)間的監(jiān)控,分析物理機(jī)資源空閑情況,包括每臺(tái)物理機(jī)資源的空閑比例和空閑時(shí)間,每臺(tái)物理機(jī)上運(yùn)行虛擬機(jī)的配置情況,分析最優(yōu)的虛擬機(jī)遷移目的地,最優(yōu)的值班物理機(jī)“人選”,做到既省電,又不會(huì)因?yàn)椴糠址?wù)器“休息”影響業(yè)務(wù)的性能。

      第五篇:大型網(wǎng)站運(yùn)維探討和心得分享

      大型網(wǎng)站運(yùn)維探討和心得分享

      看到一篇不錯(cuò)的心得體會(huì);相信我們做技術(shù)的都會(huì)有或多或少的擔(dān)憂自己的未來(lái)職業(yè)發(fā)展,下面和大家一起來(lái)探討一下。

      一、什么是大型網(wǎng)站運(yùn)維?

      首先明確一下,全文所講的”運(yùn)維“是指:大型網(wǎng)站運(yùn)維,與其它運(yùn)維的區(qū)別還是蠻大的;然后我們?cè)賹?duì)大型網(wǎng)站與小型網(wǎng)站進(jìn)行范圍定義,此定義主要從運(yùn)維復(fù)雜性角度考慮,如網(wǎng)站規(guī)范、知名度、服務(wù)器量級(jí)、pv量等考慮,其它因素不是重點(diǎn);因此,我們先定義服務(wù)器規(guī)模大于1000臺(tái),pv每天至少上億(至少國(guó)內(nèi)排名前10),如sina、baidu、QQ,51.com等等;其它小型網(wǎng)站可能沒(méi)有真正意義上的運(yùn)維工程師,這與網(wǎng)站規(guī)范不夠和成本因素有關(guān),更多的是集合網(wǎng)絡(luò)、系統(tǒng)、開發(fā)工作于一身的“復(fù)合性人才”,就如有些公司把一些合同采購(gòu)都納入了運(yùn)維職責(zé)范圍,還有如IDC網(wǎng)絡(luò)規(guī)劃也納入運(yùn)維職責(zé)。所以,非常重要一定需要明白:運(yùn)維對(duì)其它關(guān)聯(lián)工種必須非常了解熟悉:網(wǎng)絡(luò)、系統(tǒng)、系統(tǒng)開發(fā)、存儲(chǔ),安全,DB等;我在這里所講的運(yùn)維工程師就是指專職運(yùn)維工程師。我們?cè)賮?lái)說(shuō)說(shuō)一般產(chǎn)品的“出生”流程:

      1、首先公司管理層給出指導(dǎo)思想,PM定位市場(chǎng)需求(或copy成熟應(yīng)用)進(jìn)行調(diào)研、分析、最終給出詳細(xì)設(shè)計(jì)。

      2、架構(gòu)師根據(jù)產(chǎn)品設(shè)計(jì)的需求,如pv大小預(yù)估、服務(wù)器規(guī)模、應(yīng)用架構(gòu)等因素完成網(wǎng)絡(luò)規(guī)劃,架構(gòu)設(shè)計(jì)等(基本上對(duì)網(wǎng)絡(luò)變動(dòng)不大,除非大項(xiàng)目)

      3、開發(fā)工程師將設(shè)計(jì)code實(shí)現(xiàn)出來(lái)、測(cè)試工程師對(duì)應(yīng)用進(jìn)行測(cè)試。

      4、好,到運(yùn)維工程師出馬了,首先明確一點(diǎn)不是說(shuō)前三步就與運(yùn)維工作無(wú)關(guān)了,恰恰相反,前三步與運(yùn)維關(guān)系很大:應(yīng)用的前期架構(gòu)設(shè)計(jì)、軟/硬件資源評(píng)估申請(qǐng)采購(gòu)、應(yīng)用設(shè)計(jì)性能隱患及評(píng)估、IDC、服務(wù)性能安全調(diào)優(yōu)、服務(wù)器系統(tǒng)級(jí)優(yōu)化(與特定應(yīng)用有關(guān))等都需運(yùn)維全程參與,并主導(dǎo)整個(gè)應(yīng)用上線項(xiàng)目;運(yùn)維工程師負(fù)責(zé)產(chǎn)品服務(wù)器上架準(zhǔn)備工作,服務(wù)器系統(tǒng)安裝、網(wǎng)絡(luò)、IP、通用工具集安裝。運(yùn)維工程師還需要對(duì)上線的應(yīng)用系統(tǒng)架構(gòu)是否合理、是否具備可擴(kuò)展性、及安全隱患等因素負(fù)責(zé),并負(fù)責(zé)最后將產(chǎn)品(程序)、網(wǎng)絡(luò)、系統(tǒng)三者進(jìn)行拼接并最優(yōu)化的組合在一起,最終完成產(chǎn)品上線提供用戶使用,并周而復(fù)使:需求->開發(fā)(升級(jí))->測(cè)試->上線(性能、安全問(wèn)題等之前預(yù)估外的問(wèn)題隨之慢慢就全出來(lái)了)在這里提一點(diǎn):網(wǎng)站開發(fā)模式與傳統(tǒng)軟件開發(fā)完全不一樣,網(wǎng)站一天開發(fā)上線1~5個(gè)升級(jí)版本是家常便飯,用戶體驗(yàn)為王嘛,如果某個(gè)線上問(wèn)題像M$需要1年解決,用戶早跑光了;應(yīng)用上線后,運(yùn)維工作才剛開始,具體工作可能包括:升級(jí)版本上線工作、服務(wù)監(jiān)控、應(yīng)用狀態(tài)統(tǒng)計(jì)、日常服務(wù)狀態(tài)巡檢、突發(fā)故障處理、服務(wù)日常變更調(diào)整、集群管理、服務(wù)性能評(píng)估優(yōu)化、數(shù)據(jù)庫(kù)管理優(yōu)化、隨著應(yīng)用PV增減進(jìn)行應(yīng)用架構(gòu)的伸縮、安全、運(yùn)維開發(fā)工作: a、盡量將日常機(jī)械性手工工作通過(guò)工具實(shí)現(xiàn)(如服務(wù)監(jiān)控、應(yīng)用狀態(tài)統(tǒng)計(jì)、服務(wù)上線等等),提高效率。

      b、解決現(xiàn)實(shí)中服務(wù)存在的問(wèn)題,如高可靠性、可擴(kuò)展性問(wèn)題等。

      c、大規(guī)模集群管理工具的開發(fā),如1萬(wàn)臺(tái)機(jī)器如何在1分鐘內(nèi)完成密碼修改、或運(yùn)行指定任務(wù)?2000臺(tái)服務(wù)器如何快速安裝操作系統(tǒng)?各分布式IDC、存儲(chǔ)集群中數(shù)PT級(jí)的數(shù)據(jù)如何快速的存儲(chǔ)、共享、分析?等一系列挑戰(zhàn)都需運(yùn)維工程師的努力。在此說(shuō)明一下其它配合工種情況,在整個(gè)項(xiàng)目中,前端應(yīng)用對(duì)于網(wǎng)絡(luò)/系統(tǒng)工程師來(lái)說(shuō)是黑匣子,同時(shí)開發(fā)工程師職責(zé)只是負(fù)責(zé)完成應(yīng)用的功能性開發(fā),并對(duì)應(yīng)用本身性能、安全性等應(yīng)用本身負(fù)責(zé),它不負(fù)責(zé)或關(guān)心網(wǎng)絡(luò)/系統(tǒng)架構(gòu)方面事宜,當(dāng)然軟/硬件采購(gòu)人員等事業(yè)部其它同事也不會(huì)關(guān)心這些問(wèn)題,各司其職,但項(xiàng)目的核心是運(yùn)維工程師~!所有其它部門的橋梁。

      上面說(shuō)了很多,我想大家應(yīng)該對(duì)運(yùn)維有一些概念了,在此打個(gè)比方吧,如果我們是一輛高速行駛在高速公路上的汽車,那運(yùn)維工程師就是司機(jī)兼維修工,這個(gè)司機(jī)不簡(jiǎn)單,有時(shí)需要在高速行駛過(guò)程中換輪胎、并根據(jù)道路情況換檔位、當(dāng)汽車速度越來(lái)越快,汽車本身不能滿足高速度時(shí)對(duì)汽車性能調(diào)優(yōu)或零件升級(jí)、高速行進(jìn)中解決汽車故障及性能問(wèn)題、時(shí)刻關(guān)注前方安全問(wèn)題,并先知先覺(jué)的采取規(guī)避手段。這就是運(yùn)維工作~!

      最后說(shuō)一下運(yùn)維工程師的職責(zé):”確保線上穩(wěn)定“,看似簡(jiǎn)單,但實(shí)屬不容易,運(yùn)維工程師必須在諸多不利因素中進(jìn)行權(quán)衡:新產(chǎn)品模式對(duì)現(xiàn)有架構(gòu)及技術(shù)的沖擊、產(chǎn)品高頻度的升級(jí)帶來(lái)的線上BUG隱患、運(yùn)維自動(dòng)化管理承度不高導(dǎo)致的人為失誤、IT行業(yè)追求的高效率導(dǎo)致流程執(zhí)行上的缺失、用戶增漲帶來(lái)的性能及架構(gòu)上的壓力、IT行業(yè)寬松的技術(shù)管理文化、創(chuàng)新風(fēng)險(xiǎn)、互聯(lián)網(wǎng)安全性問(wèn)題等因素,都會(huì)是網(wǎng)站穩(wěn)定的大敵,運(yùn)維工程師必須把控好這最后一關(guān),需具體高度的責(zé)任感、原則性及協(xié)調(diào)能力,如果能做到各因素的最佳平衡,那就是一名優(yōu)秀的運(yùn)維工程師了。

      另外在此聊點(diǎn)題外話,我在這里看到有很多人要sina、QQ、baidu,51.com等聊自已的運(yùn)維方面的經(jīng)驗(yàn),其實(shí)這對(duì)于它們有點(diǎn)免為其難:

      a、各公司自已網(wǎng)絡(luò)架構(gòu)、規(guī)模、或多或少還算是公司的核心秘密,要保密,另外,對(duì)于大家所熟知的通用軟件、架構(gòu),由于很多公司會(huì)根據(jù)自已實(shí)際業(yè)務(wù)需要,同時(shí)因?yàn)樵嫘阅堋踩?、已知bug、功能等原因,進(jìn)行過(guò)二次開發(fā)(如apache,php,mysql),操作系統(tǒng)內(nèi)核也會(huì)根據(jù)不同業(yè)務(wù)類型進(jìn)行定制的,如某些應(yīng)用屬于運(yùn)算型、某些是高IO型、或大存儲(chǔ)大內(nèi)存型。根據(jù)這些特點(diǎn)進(jìn)行內(nèi)核優(yōu)化定制,如sina就在memcache上進(jìn)行過(guò)二次開發(fā),搞出了一個(gè)MemcacheDB,具體做得如何我們不談,但開源了,是值得稱贊的,國(guó)內(nèi)公司對(duì)于開源基本上是索取,沒(méi)有貢獻(xiàn);另外,服務(wù)器也不是大家所熟知的型號(hào),根據(jù)業(yè)務(wù)特點(diǎn),大部份都是找DELL/HP/ibm進(jìn)行過(guò)定制;另外,在分布式儲(chǔ)存方面都有自已解決方案,要不就是使用現(xiàn)成開源hadoop等解決方案,或自已開發(fā)。但90%都是借鑒googleGFS的思想:分布式存儲(chǔ)、計(jì)算、大表。

      b、各公司業(yè)務(wù)方向不一樣,會(huì)導(dǎo)致運(yùn)維模式或方法都不一樣,如51.com和baidu運(yùn)維肯定區(qū)別很大,因?yàn)樗麄儤I(yè)務(wù)模式?jīng)Q定了其架構(gòu)、服務(wù)器量級(jí)、IDC分布、網(wǎng)絡(luò)結(jié)構(gòu)、通用技術(shù)都會(huì)不一樣,主打新聞門戶的sina與主打sns的51.com運(yùn)維模式差異就非常大,甚至職責(zé)都不大一樣;但有一點(diǎn),通用技術(shù)及大致架構(gòu)上都大同小異,大家不要太神化,更多的公司只是玩壘積木的游戲罷了,沒(méi)什么技術(shù)含量。

      c、如上面所講,目前大型網(wǎng)站運(yùn)維還處于幼年時(shí)期理念和經(jīng)驗(yàn)都比較零散,沒(méi)有成熟的知識(shí)體系,可能具體什么是運(yùn)維,大家都要先思索一番,或壓根沒(méi)想過(guò),真正討論也只是運(yùn)維工作的冰山一角,局限于具體技術(shù)細(xì)節(jié),或某某著名網(wǎng)站大的框架,真正運(yùn)維體系化東西沒(méi)有,這也許是目前網(wǎng)上運(yùn)維相關(guān)資料比較少的原故吧?;蛘咭彩菄?guó)內(nèi)運(yùn)維人員比較難招,比較牛的運(yùn)維工程師比較少見的原因之一吧。

      二、運(yùn)維工作師需要什么樣的技能及素質(zhì)

      做為一名運(yùn)維工程師需要什么樣的技能及素質(zhì)呢,首先說(shuō)說(shuō)技能吧,如大家上面所看到,運(yùn)維是一個(gè)集多IT工種技能與一身的崗位,對(duì)系統(tǒng)->網(wǎng)絡(luò)->存儲(chǔ)->協(xié)議->需求->開發(fā)->測(cè)試->安全等各環(huán)節(jié)都需要了解一些,但對(duì)于某些環(huán)節(jié)需熟悉甚至精通,如系統(tǒng)(基本操作系統(tǒng)的熟悉使用,*nix,windows..)、協(xié)議、系統(tǒng)開發(fā)(日常很重要的工作是自動(dòng)運(yùn)維化相關(guān)開發(fā)、大規(guī)模集群工具開發(fā)、管理)、通用應(yīng)用(如lvs、ha、webserver、db、中間件、存儲(chǔ)等)、網(wǎng)絡(luò),IDC拓樸架構(gòu); 技能方面總結(jié)以下幾點(diǎn):

      1、開發(fā)能力,這點(diǎn)非常重要,因?yàn)檫\(yùn)維工具都需要自已開發(fā),開發(fā)語(yǔ)言:c/c++(必備其中之一)、perl、python、php(其中之一)、shell(awk,sed,expect….等),需要有過(guò)實(shí)際開發(fā)經(jīng)驗(yàn),否則工作會(huì)非常痛苦。

      2、通用應(yīng)用方面需要了解:操作系統(tǒng)(目前國(guó)內(nèi)主要是linux、bsd)、webserver相關(guān)(nginx,apahe,php,lighttpd,java。。)、數(shù)據(jù)庫(kù)(mysql,oralce)、其它雜七八拉的東東。。系統(tǒng)優(yōu)化,高可靠性。。這些只是加分項(xiàng),不需必備,可以邊工作邊慢慢學(xué),這些東西都不難。當(dāng)然在運(yùn)維中,有些是有分工偏重點(diǎn)不一樣。

      3、系統(tǒng)、網(wǎng)絡(luò)、安全,存儲(chǔ),CDN,DB等需要相當(dāng)了解,知道其相關(guān)原理。個(gè)人素質(zhì)方面:

      1、溝通能力、團(tuán)隊(duì)協(xié)作:運(yùn)維工作跨部門、跨工種工作很多,需善于溝通、并且團(tuán)隊(duì)協(xié)作能力要強(qiáng);這應(yīng)該是現(xiàn)代企業(yè)的基本素質(zhì)要求了,不多說(shuō)。

      2、工作中需膽大心細(xì):膽大才能創(chuàng)新、不走尋常路,特別對(duì)于運(yùn)維這種新的工種,更需創(chuàng)新才能促進(jìn)發(fā)展;心細(xì),運(yùn)維工程師是網(wǎng)站admin,最高線上權(quán)限者,一不小心就會(huì)遺憾終生或打入十八層地獄。

      3、主動(dòng)性、執(zhí)行力、精力旺盛、抗壓能力強(qiáng):由于IT行業(yè)的特性,變化快;往往計(jì)劃趕不上變化,運(yùn)維工作就更突出了,比如國(guó)內(nèi)各大公司服務(wù)器往往是全國(guó)各地,哪里便宜性價(jià)比高,就那往搬,進(jìn)行大規(guī)模服務(wù)遷移(牽扯的服務(wù)器成百上千臺(tái)),這是一個(gè)非常頭痛的問(wèn)題;往往時(shí)間非常緊迫,如限1周內(nèi)完成,這種情況下,運(yùn)維工程師的主動(dòng)性及執(zhí)行力就有很高的要求了:計(jì)劃、方案、服務(wù)無(wú)縫遷移、機(jī)器搬遷上架、環(huán)境準(zhǔn)備、安全評(píng)估、性能評(píng)估、基建、各關(guān)聯(lián)部門扯皮,7X24小緊急事故響應(yīng)等。

      4、其它就是一些基本素質(zhì)了:頭腦要靈光、邏輯思維能力強(qiáng)、為人謙虛穩(wěn)重、親和力、樂(lè)于助人、有大局觀。

      5、最后一點(diǎn),做網(wǎng)站運(yùn)維需要有探索創(chuàng)新精神,通過(guò)創(chuàng)新型思維解決現(xiàn)實(shí)中的問(wèn)題,因?yàn)檫@是一個(gè)處于幼年的職業(yè)(國(guó)外也一樣,但比國(guó)內(nèi)起步早點(diǎn)),沒(méi)有成熟體系或方法論可以借鑒,只能靠大家自已摸索努力。

      三、怎樣才算是一個(gè)合格的運(yùn)維工程師

      1、保證服務(wù)達(dá)到要求的線上標(biāo)準(zhǔn),如99.9%;保證線上穩(wěn)定,這是運(yùn)維工程師的基本責(zé)職所在。

      2、不斷的提升應(yīng)用的可靠性與健壯性、性能優(yōu)化、安全提升;這方面非??简?yàn)主動(dòng)性、和創(chuàng)新思維。

      3、網(wǎng)站各層面監(jiān)控、統(tǒng)計(jì)的覆蓋度,軟件、硬件、運(yùn)行狀態(tài),能監(jiān)控的都需要監(jiān)控統(tǒng)計(jì),避免監(jiān)控死角、并能實(shí)時(shí)了解應(yīng)用的運(yùn)轉(zhuǎn)情況。

      4、通過(guò)創(chuàng)新思維解決運(yùn)維效率問(wèn)題;目前各公司大部份運(yùn)維主要工作還是依賴人工操作干預(yù),需要盡可能的解放雙手。

      5、運(yùn)維知識(shí)的積累與沉淀、文檔的完備性,運(yùn)維是一個(gè)經(jīng)驗(yàn)性非常強(qiáng)的崗位,好的經(jīng)驗(yàn)與陷阱都需積累下來(lái),避免重復(fù)性范錯(cuò)。

      6、計(jì)劃性和執(zhí)行力;工作有計(jì)劃,計(jì)劃后想法設(shè)法達(dá)到目標(biāo),不找借口。

      7、自動(dòng)化運(yùn)維;能對(duì)日常機(jī)械化工作進(jìn)行提煉、設(shè)計(jì)并開發(fā)成工具、系統(tǒng),能讓系統(tǒng)自動(dòng)完成的盡量依靠系統(tǒng);讓大家更多的時(shí)間用于思考、創(chuàng)新思維、做自已喜歡的事情。以上只是技術(shù)上的一些層面,當(dāng)然個(gè)人意識(shí)也是很重要的。

      四、運(yùn)維職業(yè)的迷惘、現(xiàn)狀與發(fā)展前景

      運(yùn)維崗位不像其它崗位,如研發(fā)工程師、測(cè)試工程師等,有非常明確的職責(zé)定位及職業(yè)規(guī)劃,比較有職業(yè)認(rèn)同感與成就感;而運(yùn)維工作可能給人的感覺(jué)是哪方面都了解一些,但又都比上專職工程師更精通、感覺(jué)平時(shí)被關(guān)注度比較低(除非線上出現(xiàn)故障),慢慢的大家就會(huì)迷惘,對(duì)職業(yè)發(fā)展產(chǎn)生困惑,為什么會(huì)有這種現(xiàn)象呢?除了職業(yè)本身特點(diǎn)外,主要還是因?yàn)閷?duì)運(yùn)維了解不深入、做得不深入導(dǎo)致;其實(shí)這個(gè)問(wèn)題其它崗位也會(huì)出現(xiàn),但我發(fā)現(xiàn)運(yùn)維更典型,更容易出現(xiàn)這個(gè)問(wèn)題;

      針對(duì)這個(gè)問(wèn)題我談一下網(wǎng)站運(yùn)維的現(xiàn)狀及發(fā)展前景(也在思考中,可能不太深入全面,也請(qǐng)大家斧正補(bǔ)充)運(yùn)維現(xiàn)狀:

      1、處于剛起步的初級(jí)階段,各大公司有此專職,但重視或重要承度不高,可替代性強(qiáng);小公司更多是由其它崗位來(lái)兼顧做這一塊工作,沒(méi)有專職,也不可能做得深入

      2、技術(shù)層次比較低;主要處于技術(shù)探索、積累階段,沒(méi)有型成體系化的理念、技術(shù)。

      3、體力勞動(dòng)偏大;這個(gè)問(wèn)題主要與第二點(diǎn)有關(guān)系,很多事情還是依靠人力進(jìn)行,沒(méi)有完成好的提練,對(duì)于大規(guī)模集群沒(méi)有成熟的自動(dòng)化管理方法,在此說(shuō)明一下,大規(guī)模集群與運(yùn)維工作是息息相關(guān)的如果只是百十來(lái)臺(tái)機(jī)器,那就沒(méi)有運(yùn)維太大的生存空間了。

      4、優(yōu)秀運(yùn)維人才的極度缺乏;目前各大公司基本上都靠自已培養(yǎng),這個(gè)現(xiàn)狀導(dǎo)致行業(yè)內(nèi)運(yùn)維人才的流動(dòng)性非常低,非常多好的技術(shù)都局限在各大公司內(nèi)部,如google50萬(wàn)臺(tái)機(jī)器科學(xué)的管理,或者國(guó)內(nèi)互聯(lián)公司top10的一些運(yùn)維經(jīng)驗(yàn),這些經(jīng)驗(yàn)是非常有價(jià)值的東西并決定了一個(gè)公司的核心競(jìng)爭(zhēng)力;這些問(wèn)題進(jìn)而導(dǎo)致業(yè)內(nèi)先進(jìn)運(yùn)維技術(shù)的流通、貫通、與借簽,并最終將限制了運(yùn)維發(fā)展。

      5、很多優(yōu)秀的運(yùn)維經(jīng)驗(yàn)都掌握在大公司手中;這不在于公司的技術(shù)實(shí)力,而在于大公司的技術(shù)規(guī)模、海量PV、硬件規(guī)模足夠大,如baidu可怕的流量、51.com海量數(shù)據(jù)~~~~這些因素決定了他們遇到的問(wèn)題都是其它中/小公司還沒(méi)有遇到的,或即將遇到。但大公司可能已有很好的解決方案或系統(tǒng)。發(fā)展前景:

      1、從行業(yè)角度來(lái)看,隨著中國(guó)互聯(lián)網(wǎng)的高速發(fā)展(目前中國(guó)網(wǎng)民已躍升為全球第一)、網(wǎng)站規(guī)模越來(lái)越來(lái)大、架構(gòu)越來(lái)越復(fù)雜;對(duì)專職網(wǎng)站運(yùn)維工程師、網(wǎng)站架構(gòu)師的要求會(huì)越來(lái)越急迫,特別是對(duì)有經(jīng)驗(yàn)的優(yōu)秀運(yùn)維人才需求量大,而且是越老越值錢;目前國(guó)內(nèi)基本上都是選擇畢業(yè)生培養(yǎng)(限于大公司),培養(yǎng)成本高,而且沒(méi)有經(jīng)驗(yàn)人才加入會(huì)導(dǎo)致公司技術(shù)更新緩慢、影響公司的技術(shù)發(fā)展;當(dāng)然,畢業(yè)生也有好處:白紙一張,可塑性強(qiáng),比較認(rèn)同并容易融入企業(yè)文化。

      2、從個(gè)人角度,運(yùn)維工程師技術(shù)含量及要求會(huì)越來(lái)越高,同時(shí)也是對(duì)公司應(yīng)用、架構(gòu)最了解最熟悉的人、越來(lái)越得到重視。

      3、網(wǎng)站運(yùn)維將成為一個(gè)融合多學(xué)科(網(wǎng)絡(luò)、系統(tǒng)、開發(fā)、安全、應(yīng)用架構(gòu)、存儲(chǔ)等)的綜合性技術(shù)崗位,給大家提供一個(gè)很好的個(gè)人能力與技術(shù)廣度的發(fā)展空間。

      4、運(yùn)維工作的相關(guān)經(jīng)驗(yàn)將會(huì)變得非常重要,而且也將成為個(gè)人的核心競(jìng)爭(zhēng)力,具備很好的各層面問(wèn)題的解決能力及方案提供、全局思考能力等。

      5、特長(zhǎng)發(fā)控和興趣的培養(yǎng);由于運(yùn)維崗位所接觸的知識(shí)面非常廣闊,更容易培養(yǎng)或發(fā)揮出個(gè)人某些方面的特長(zhǎng)或愛(ài)好,如內(nèi)核、網(wǎng)絡(luò)、開發(fā)、數(shù)據(jù)庫(kù)等方面,可以做得非常深入精通、成為這方面的專家。

      6、如果真要以后不想做運(yùn)維了,轉(zhuǎn)到其它崗位也比較容易,不會(huì)有太大的局限性。當(dāng)然了,你得真正用心去做。

      7、技術(shù)發(fā)展方向、網(wǎng)站/系統(tǒng)架構(gòu)師。

      五、運(yùn)維關(guān)鍵技術(shù)點(diǎn)解剖

      1、大規(guī)模集群管理問(wèn)題

      首先我們先要明確集群的概念,集群不是泛指各功能服務(wù)器的總合,而是指為了達(dá)到某一目的或功能的服務(wù)器、硬盤資源的整合(機(jī)器數(shù)大于兩臺(tái)),對(duì)于應(yīng)用來(lái)說(shuō)它就是一個(gè)整體,目前常規(guī)集群可分為:高可用性集群(HA),負(fù)載均衡集群(如lvs),分布式儲(chǔ)、計(jì)算存儲(chǔ)集群(DFS,如googlegfs,yahoohadoop),特定應(yīng)用集群(某一特定功能服務(wù)器組合、如db、cache層等),目前互聯(lián)網(wǎng)行業(yè)主要基于這四種類型;對(duì)于前兩種類似,如果業(yè)務(wù)簡(jiǎn)單、應(yīng)用上post操作比較少,可以簡(jiǎn)單的采用四層交換機(jī)解決(如f5),達(dá)到服務(wù)高可用/負(fù)責(zé)均衡的作用,對(duì)于資源緊張的公司也有一些開源解決辦法如lvs+ha,非常靈活;對(duì)于后兩種,那就考驗(yàn)公司技術(shù)實(shí)力及應(yīng)用特點(diǎn)了,第三種DFS主要應(yīng)用于海量數(shù)據(jù)應(yīng)用上,如郵件、搜索等應(yīng)用,特別是搜索要求就更高了,除了簡(jiǎn)單海量存儲(chǔ),還包括數(shù)據(jù)挖掘、用戶行為分析;如google、yahoo就能保存分析近一年的用戶記錄數(shù)據(jù),而baidu應(yīng)該少于30天、soguo就更少了。。這些對(duì)于搜索準(zhǔn)備性、及用戶體驗(yàn)是至關(guān)重要的。接下來(lái),我們?cè)僬務(wù)勅绾慰茖W(xué)的管理集群,有以下關(guān)鍵幾點(diǎn): I、監(jiān)控

      主要包括故障監(jiān)控和性能、流量、負(fù)載等狀態(tài)監(jiān)控,這些監(jiān)控關(guān)系到集群的健康運(yùn)行,及潛在問(wèn)題的及時(shí)發(fā)現(xiàn)與干預(yù);

      a、服務(wù)故障、狀態(tài)監(jiān)控:主要是對(duì)服務(wù)器自身、上層應(yīng)用、關(guān)聯(lián)服務(wù)數(shù)據(jù)交互監(jiān)控;例如針對(duì)前端webserver,我們就可以有很多種類型的監(jiān)控,包括應(yīng)用端口狀態(tài)監(jiān)控,便于及時(shí)發(fā)現(xiàn)服務(wù)器或應(yīng)用本身是否crash、通過(guò)icmp包探測(cè)服務(wù)器健康狀態(tài),更上層可能還包括應(yīng)用各頻道業(yè)務(wù)的監(jiān)控,常用方法是采用面業(yè)特征碼進(jìn)行判斷,或?qū)χ攸c(diǎn)頁(yè)面進(jìn)行簽名,以網(wǎng)站被黑篡改(報(bào)警、并自動(dòng)恢復(fù)被篡改數(shù)據(jù))等等,這些只是一部份,還有N多監(jiān)控方式,依應(yīng)用特點(diǎn)而定,還有一些問(wèn)題需解決,如集群過(guò)大,如何高性能的進(jìn)行監(jiān)控也是一個(gè)現(xiàn)實(shí)問(wèn)題。

      b、其它就是集群狀態(tài)類的監(jiān)控或統(tǒng)計(jì),為我們合理管理調(diào)優(yōu)集群提供數(shù)據(jù)參考、包括服務(wù)瓶頸、性能問(wèn)題、異常流量、攻擊等問(wèn)題。II、故障管理 a、硬件故障問(wèn)題;對(duì)于成百上千或上萬(wàn)機(jī)器的N多集群,服務(wù)器死機(jī)、硬件故障概率是非常大的,幾乎每時(shí)每刻都有服務(wù)硬件問(wèn)題,死機(jī)、硬盤損壞、電源、內(nèi)存、交換機(jī)。針對(duì)這種情況,我們?cè)谠O(shè)計(jì)網(wǎng)站架構(gòu)時(shí)需要充分考慮到這些問(wèn)題,并將其視為常態(tài);更多的依靠應(yīng)用的冗余機(jī)制來(lái)規(guī)避這種風(fēng)險(xiǎn),但給系統(tǒng)工程師足夠?qū)捲5奶幚頃r(shí)間。(如google不是號(hào)稱同時(shí)死800臺(tái)機(jī)器,服務(wù)不會(huì)受到任何影響嗎);這就是考驗(yàn)運(yùn)維工程師及網(wǎng)站架構(gòu)師功能的地方了,好的設(shè)計(jì)能達(dá)到google所描述自恢復(fù)能力,如gfs,糟糕的設(shè)計(jì)那就是一臺(tái)服務(wù)器的死機(jī)可能會(huì)造成大面積服務(wù)的連鎖故障反映,直接對(duì)用戶拒絕響應(yīng)。

      b、應(yīng)用故障問(wèn)題;可能是某一bug被觸發(fā)、或某一性能閥值被超越、攻擊等情況不一而定,但重要的一點(diǎn),是要有對(duì)這些問(wèn)題的預(yù)防性措施,不能想當(dāng)然,它不會(huì)出問(wèn)題,如真出問(wèn)題了,如何應(yīng)對(duì)?這需要運(yùn)維工程師平時(shí)做足功夫,包括應(yīng)急響應(yīng)速度、故障處理的科學(xué)性、備用方案的有效等。III、自動(dòng)化

      自動(dòng)化:簡(jiǎn)而言之,就是將我們?nèi)粘J謩?dòng)進(jìn)行的一些工作通過(guò)工具,系統(tǒng)自動(dòng)來(lái)完成,解放我們的雙手及枯燥的重復(fù)性勞動(dòng),例如:沒(méi)有工具前,我們安裝系統(tǒng)需要一臺(tái)一臺(tái)裸機(jī)安裝,如2000臺(tái),可能需要10人/10天,搞爛N張光盤,人力成本更大。。而現(xiàn)在通過(guò)自動(dòng)化工具,只需幾個(gè)簡(jiǎn)單命令就能搞定、還有如機(jī)器人類程序,自動(dòng)完成以往每天人工干預(yù)的工作,使其自動(dòng)完成、匯報(bào)結(jié)果,并具備一定的專家系統(tǒng)能力,能做一些簡(jiǎn)單的是/非判斷、優(yōu)化選擇等。。這些好處非常明顯不再多說(shuō)。。應(yīng)該說(shuō),自動(dòng)化運(yùn)維是運(yùn)維工程師職業(yè)化的一個(gè)追求,利已利公,雖然這是一個(gè)異常艱巨的任務(wù):不斷變更的業(yè)務(wù)、不規(guī)范化的應(yīng)用設(shè)計(jì)、開發(fā)模式、網(wǎng)絡(luò)架構(gòu)變更、IDC變更、規(guī)范變動(dòng)等因素,都可能會(huì)對(duì)現(xiàn)有自動(dòng)化系統(tǒng)產(chǎn)生影響,所以需要模塊化、接口化、變因參數(shù)化等因此,自動(dòng)化相關(guān)工作,是運(yùn)維工程師的核心重點(diǎn)工作之一,也是價(jià)值的體現(xiàn)。

      2、運(yùn)維中關(guān)鍵技術(shù)點(diǎn)解剖(比較實(shí)際,現(xiàn)實(shí)中的案例,今天先想出這幾條,如大家有其它感覺(jué)興趣的,可以提出,一起交流~)

      1、大量高并發(fā)網(wǎng)站的設(shè)計(jì)方案

      2、高可靠、高可伸縮性網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

      3、網(wǎng)站安全問(wèn)題,如何避免被黑?

      4、南北互聯(lián)問(wèn)題,動(dòng)態(tài)CDN解決方案

      5、海量數(shù)據(jù)存儲(chǔ)架構(gòu)

      下載再談大型數(shù)據(jù)中心的運(yùn)維工作(本站推薦)word格式文檔
      下載再談大型數(shù)據(jù)中心的運(yùn)維工作(本站推薦).doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        數(shù)據(jù)中心機(jī)房建設(shè)及運(yùn)維管理0220

        數(shù)據(jù)中心機(jī)房建設(shè)及運(yùn)維管理 1.機(jī)房建設(shè)的目的 為計(jì)算機(jī)提供穩(wěn)定的運(yùn)行環(huán)境 保障機(jī)房操作人員的身體健康 降低工程造價(jià)和運(yùn)維成本 為計(jì)算機(jī)提供穩(wěn)定的運(yùn)行環(huán)境: 四保證:穩(wěn)頻......

        數(shù)據(jù)中心機(jī)房運(yùn)維外包服務(wù)(內(nèi)容)[范文]

        數(shù)據(jù)中心機(jī)房運(yùn)維外包服務(wù) 1. 服務(wù)范圍 ? 終端:終端設(shè)備包括臺(tái)式計(jì)算機(jī)、便攜式計(jì)算機(jī)、高端工作站和打印機(jī); ? 網(wǎng)絡(luò)系統(tǒng):網(wǎng)絡(luò)系統(tǒng)包括技術(shù)中心局域網(wǎng)、廣域網(wǎng)、互聯(lián)網(wǎng)的維護(hù)工作......

        運(yùn)維主要工作

        運(yùn)維主要工作: (1)運(yùn)維人員每天至少上午,下午現(xiàn)場(chǎng)巡視檢查設(shè)備運(yùn)行狀態(tài)。 (2)每天值班的運(yùn)維人員負(fù)責(zé)接聽電話,負(fù)責(zé)每小時(shí)抄寫各種記錄表格一次。 (3)執(zhí)行倆票三制制度。 (4)配合廠家完......

        數(shù)據(jù)中心日常運(yùn)維及應(yīng)急處理方案[全文5篇]

        四、數(shù)據(jù)中心日常運(yùn)維及應(yīng)急處理方案 數(shù)據(jù)中心要保持穩(wěn)定的運(yùn)行,需要大量的專業(yè)技術(shù)人員。一般承擔(dān)重要業(yè)務(wù)的數(shù)據(jù)中心都是有人24小時(shí)值守,無(wú)人值守的數(shù)據(jù)中心一般只能承擔(dān)不......

        運(yùn)維工作周報(bào)[★]

        運(yùn)維工作周報(bào)模板 報(bào)告人:XXX 時(shí)間:2012-X-01 ~ 2012-X-07 一、常規(guī)工作 1. 2. 3. 4. 5. LVS項(xiàng)目推廣; 發(fā)布系統(tǒng)網(wǎng)絡(luò)調(diào)整配合; 快答系統(tǒng)上線; 制定Q2的5年服務(wù)器替換計(jì)劃; 系統(tǒng)......

        工商銀行上海數(shù)據(jù)中心災(zāi)備系統(tǒng)運(yùn)維實(shí)踐

        工商銀行上海數(shù)據(jù)中心災(zāi)備系統(tǒng)運(yùn)維實(shí)踐 一、“兩地三中心”建設(shè)歷程 工商銀行于1999 年開啟了數(shù)據(jù)中心集約化建設(shè)的先河,在北京、上海分別建設(shè)兩大數(shù)據(jù)中心后,于2002年1 月在......

        大型數(shù)據(jù)中心建設(shè)研究論文(大全)

        2015年1月,國(guó)務(wù)院印發(fā)了《關(guān)于促進(jìn)云計(jì)算創(chuàng)新發(fā)展培育信息產(chǎn)業(yè)新業(yè)態(tài)的意見》(以下稱《意見》),以促進(jìn)云計(jì)算創(chuàng)新發(fā)展,積極培育信息產(chǎn)業(yè)新業(yè)態(tài)?!兑庖姟钒l(fā)展目標(biāo):到2020年,云計(jì)......

        網(wǎng)絡(luò)運(yùn)維工作職責(zé)

        工作職責(zé) 一、工作職責(zé): 1、網(wǎng)管為網(wǎng)絡(luò)安全運(yùn)行的歸口部門,負(fù)責(zé)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的日常維護(hù)和管理。 2、負(fù)責(zé)系統(tǒng)軟硬件的調(diào)研、詢價(jià)、采購(gòu)、安裝、升級(jí)、保管、維護(hù)等工作; 3、......