第一篇:工商銀行上海數(shù)據(jù)中心災備系統(tǒng)運維實踐
工商銀行上海數(shù)據(jù)中心災備系統(tǒng)運維實踐
一、“兩地三中心”建設歷程
工商銀行于1999 年開啟了數(shù)據(jù)中心集約化建設的先河,在北京、上海分別建設兩大數(shù)據(jù)中心后,于2002年1 月在國內(nèi)同業(yè)率先啟動了主機災難備份工程。經(jīng)過多年的建設和持續(xù)投入,已經(jīng)實現(xiàn)了高等級的核心系統(tǒng)災備體系建設,完成了全行應用分等級災備體系建設。為進一步提升信息系統(tǒng)災難恢復能力,工商銀行啟動了 “兩地三中心”工程建設。根據(jù)規(guī)劃,2014 年將在上海嘉定建立同城數(shù)據(jù)中心,與上海外高橋數(shù)據(jù)中心構成同城雙中心,同城雙中心整體與北京異地災備中心組成異地災備模式(如圖1 所示)。
“兩地三中心”模式可以滿足不同災難場景下的恢復要求,實現(xiàn)更靈活的風險應對。在架構布局上,上海同城雙中心具備基本相同的業(yè)務處理能力并通過高速鏈路進行實時數(shù)據(jù)同步,兩個中心之間距離約55 千米,日常情況下可按主/ 備或雙活模式運行。在發(fā)生區(qū)域級災難某個中心失效時,可在基本不丟失數(shù)據(jù)的情況下進行雙中心間的應急切換,保持業(yè)務連續(xù)運行。北京異地災備中心用于同城雙中心的災難恢復,當出現(xiàn)因大范圍自然災害等原因導致同城雙中心同時失效時,異地災備中心可以用災備系統(tǒng)接管全行核心業(yè)務。
二、“兩地三中心”技術手段和實施策略
工商銀行通過技術攻關,完成了“兩地三中心”模式下的信息系統(tǒng)業(yè)務連續(xù)性架構設計和方案研究,提出了可以提供多層級業(yè)務連續(xù)性保障水平的解決方案。信息系統(tǒng)可以給銀行業(yè)務應用提供A/A、A/Q 和A/S 等多種部署模式,最終以業(yè)務影響分析結果作為應用部署模式選型的決策依據(jù)。
在具體實施中,工商銀行堅持“全面覆蓋基本保障能力、重點針對關鍵核心應用部署高等級災備保障技術”原則,做好資源分等級和差異化配置。如ATM、POS、柜面業(yè)務、資本市場等核心業(yè)務系統(tǒng)是銀行的關鍵應用,與其相關的應用系統(tǒng)就具有較高的業(yè)務連續(xù)性等級。自2010 年工程啟動以來,項目進展情況良好,完成方案規(guī)劃設計和驗證評審,在數(shù)據(jù)庫復制技術全面推廣、智能網(wǎng)管改造、55 千米磁盤同步鏡像等關鍵技術領域取得了突破;完成了核心主機并行系統(tǒng)投產(chǎn),即雙園區(qū)模擬同城雙活的試運行,目前主機并行系統(tǒng)主要運行可分離查詢交易,分流了部分核心生產(chǎn)系統(tǒng)的負載壓力;完成13 個開放平臺應用服務器雙活改造,預計今年將完成近50 個開放平臺應用的雙活改造。同時,工商銀行積極探索“兩地三中心”運行模式,按照“一體化管理”原則,初步制定了“兩地三中心”生產(chǎn)運行管理方案,并對組織架構和主要職能進行了規(guī)劃。嘉定同城數(shù)據(jù)中心園區(qū)基建工程按計劃推進,于2011 年底奠基,2012年4 月開工,2012 年底8 萬平方米基建工程結構封頂,計劃今年底機房樓交付使用,2014 年嘉定同城數(shù)據(jù)中心園區(qū)建成啟用,實現(xiàn)“兩地三中心”的數(shù)據(jù)中心布局。
三、“兩地三中心”安全措施
1.建立全面、系統(tǒng)、可持續(xù)發(fā)展的信息安全管理體系
①以安全、穩(wěn)定、高效、追求卓越為安全方針建立具有工商銀行特色的ISO27001 信息安全管理體系。數(shù)據(jù)中心(上海)于2011 年通過了ISO27001:2005 信息安全管理體系認證,實現(xiàn)在信息安全組織、資產(chǎn)管理、人員安全、物理和環(huán)境安全、通信及操作管理、訪問控制等11個方面130 余個控制點的全方位的信息安全管理體系。同時,建立起具有工商銀行特色的支撐跨地域統(tǒng)一管理的ISO27001信息安全管理體系,主要包括信息安全制度管理、安全生產(chǎn)與運維管理、安全與防控技術管理、用戶與人員管理、綜合管理等五大方面共107 項精細化管理制度。
②建設信息安全組織體系確保信息安全管理有效開展。數(shù)據(jù)中心成立了信息安全領導小組,作為信息安全管理最高管理機構,確定信息安全方針、目標和控制策略,明確信息安全的管理職責。信息安全領導小組定期或不定期召開聯(lián)席會議,分析信息安全形勢,研究中心信息安全管理薄弱環(huán)節(jié)及應對措施,貫徹落實監(jiān)管部門、上級機構信息安全管理要求等。中心建立了縱、橫向聯(lián)系報告機制,及時掌握并報告本區(qū)域重大信息安全事件、案件線索或案件,提示風險,有效防控風險。
③信息安全管理體系隨著工商銀行和中心自身的發(fā)展、內(nèi)外部安全形勢的不斷變化,與時俱進持續(xù)改進。主要措施包括:定期對人員、硬件、軟件、數(shù)據(jù)與文檔等各類重要資產(chǎn)所面臨的風險進行評估,結合現(xiàn)有技術能力和管理成本,制定相關的補償控制措施;利用有效的技術平臺,通過完整、系統(tǒng)、及時的問題整改跟蹤管理,將內(nèi)外部審計檢查發(fā)現(xiàn)的問題進行分析匯總,在督促及時完成整改的同時,不斷挖掘制度漏洞和流程缺陷,及時完善管理體系;主動對生產(chǎn)故障事件、外部信息安全重大事件等進行分析研究,深入剖析問題發(fā)生和防控失效的深層次原因,進一步細化制度執(zhí)行要求、強化技術硬控制、優(yōu)化生產(chǎn)運維流程;積極與外部審計監(jiān)管單位、各行業(yè)先進企業(yè)進行溝通,主動學習借鑒國際先進標準和業(yè)界領先經(jīng)驗,不斷完善優(yōu)化中心的信息安全管理體系。
2.生產(chǎn)運維安全措施多管齊下,確保生產(chǎn)穩(wěn)定運行
①努力降低變更引發(fā)的安全生產(chǎn)問題。變更前通過變更評審會和變更協(xié)調(diào)會對高風險度變更和跨多個部門的變更進行評估和協(xié)調(diào);變更中嚴格按照雙人復核提交方式進行變更操作;變更后及時開展技術和業(yè)務驗證。根據(jù)應用等級和對外服務時間嚴格控制變更窗口,嚴格控制緊急變更。將環(huán)境搭建和版本升級準備等相關變更活動限制在與生產(chǎn)環(huán)境隔離的區(qū)域,進一步降低變更操作風險。
②持續(xù)完善應急管理。制定完備的應急和災備演練計劃,開展層次豐富的各類演練,及時總結演練過程發(fā)現(xiàn)的問題并加以改進,定期開展南北兩地互相遠程接管演練等。
③ 建立了涵蓋主機、網(wǎng)絡、平臺、UPS、應用、安全等各領域的集中監(jiān)控報警平臺,統(tǒng)一了監(jiān)控報警事件的處理流程,使得各類報警能得以快速處理。
④ 定期對生產(chǎn)事件進行總結分析,找到問題根源和解決方案,避免事件的再次發(fā)生和深層次安全隱患。建立完善的事件溝通機制,通過每日、每周及不定期專項會議將相關事件發(fā)生原因、處理過程、改進措施等進行分析總結,舉一反三防微杜漸。
⑤高度重視性能容量管理,建立了覆蓋操作系統(tǒng)、數(shù)據(jù)庫、中間件、網(wǎng)絡、存儲、動力、應用等領域的較為全面的性能容量指標和監(jiān)控系統(tǒng)及指標閾值和報警規(guī)則,并結合實際生產(chǎn)情況、版本變化定期進行全面的指標梳理。定期開展性能容量統(tǒng)計分析,根據(jù)分析結果進行相應擴容、改造或資源回收。
⑥進一步完善運行操作管理,提高批量操作自動化水平,減少人為干預。通過專業(yè)系統(tǒng)對操作步驟制定、修改、發(fā)布、執(zhí)行過程記錄等進行信息化、流程化、自動化管理。實現(xiàn)了管理嚴謹、操作有序的安全生產(chǎn)目標。
⑦以“知其所需、最小授權、唯一鑒別、有效控制”為原則,進行各類用戶權限的劃分和按需發(fā)放,通過細致的訪問控制,降低操作類安全事件發(fā)生的可能性。
⑧進行嚴格的網(wǎng)絡區(qū)域劃分,實現(xiàn)生產(chǎn)與外部網(wǎng)、生產(chǎn)與辦公網(wǎng)的隔離。在接入網(wǎng)和互聯(lián)網(wǎng)區(qū)域網(wǎng)絡邊界部署入侵檢測防護設備,實現(xiàn)對攻擊事件、DOS/DDOS 事件的檢測和防護。
⑨ 通過技術手段嚴格落實數(shù)據(jù)訪問、數(shù)據(jù)變形、數(shù)據(jù)傳輸、數(shù)據(jù)恢復、數(shù)據(jù)清理、數(shù)據(jù)銷毀等數(shù)據(jù)管理各環(huán)節(jié)的安全管理要求。同時建立完善的客戶端安全技術防護體系,包括防病毒管理、系統(tǒng)補丁管理、軟硬件管理、外發(fā)郵件管理、互聯(lián)網(wǎng)訪問管理、電子文件安全管理、信息泄漏防護管理、筆記本硬盤密碼保護管理等,實現(xiàn)客戶端的安全準入控制和數(shù)據(jù)安全管理。
⑩通過日志集中和安全審計平臺建設,對各類生產(chǎn)系統(tǒng)的人員操作、系統(tǒng)安全事件等進行快速和全面審計,及時發(fā)現(xiàn)和通報違規(guī)操作、惡意攻擊、高風險操作等現(xiàn)象。
四、未來發(fā)展規(guī)劃
未來,工商銀行數(shù)據(jù)中心要努力實現(xiàn)生產(chǎn)運行管理可控、可靠、可持續(xù)的目標??煽?,即對日常運維和突發(fā)問題可以主動安排和快速把控;可靠,即能提供穩(wěn)定可靠運作的基礎設施環(huán)境,確保全行信息系統(tǒng)運行不因物理設備故障而中斷。可持續(xù),即在任何時候、任何情況下均不發(fā)生對外服務中斷。為此重點要做好以下幾方面工作。
一是樹立“安全生產(chǎn)第一”和“第一時間恢復生產(chǎn)”的指導思想,落實各項生產(chǎn)運行管理措施。包括提升監(jiān)控的覆蓋率、準確率和時效性;提升應急管理效率,確保在應急情況下,能夠立即切換,第一時間恢復生產(chǎn);提升生產(chǎn)一線發(fā)生事件的處置能力;提升變更管理和應用版本投產(chǎn)管理質量;提升健康檢查、性能容量分析水平,提前采取預防和改進措施,切實降低重大生產(chǎn)事件發(fā)生概率;提升對境外機構的生產(chǎn)運行管理和服務,強化中心針對分行管理的專業(yè)人員的配備,完善對分行生產(chǎn)系統(tǒng)的遠程實時監(jiān)控能力,抓好分行機房動力設施、網(wǎng)絡通信線路的改造升級等。
二是進一步提升信息系統(tǒng)的高可用性和災備能力。要積極推進以數(shù)據(jù)零丟失和“本地雙活、異地災備”為原則的“兩地三中心”建設,高標準、高質量建設上海同城中心;要積極推動應用系統(tǒng)災備體系優(yōu)化,根據(jù)應用災備等級劃分的要求,加快推進開放平臺應用系統(tǒng)的災備建設,確保關鍵開放平臺應用系統(tǒng)均具備異地災備能力。
三是加強生產(chǎn)運維的自動化工具研發(fā)與投入,不斷提升操作、監(jiān)控、維護、資源配置的自動化程度。推動實現(xiàn)數(shù)據(jù)中心批量操作自動化比例達到98% 以上;要全面建立覆蓋各應用系統(tǒng)的“端到端”業(yè)務級監(jiān)控,推動數(shù)據(jù)中心運行維護和資源配置的自動化,從而全面提升數(shù)據(jù)中心例行化工作的質量和效率。
四是以風險管理為核心,建立覆蓋全流程的信息安全管理體系,不斷提升信息安全管理水平。通過風險評估的方法,建立、實施、運行、監(jiān)視、評審、保持和改進信息安全工作的流程與規(guī)范。
五是建立科學合理的人力資源配置和激勵機制,加快建設數(shù)據(jù)中心專業(yè)化人才隊伍。要合理配置人力資源,加強行業(yè)領軍人才和高級專業(yè)人才培養(yǎng),建立人才梯隊,穩(wěn)定人才隊伍。
第二篇:數(shù)據(jù)中心運維題目
運維部第二季度考試試卷
部門:__________________ 姓名:__________________ 分數(shù):_____________
一、填空題(每空 1分,共 10分)
1、IDC 機房溫濕度應嚴格符合設備運行要求。溫度正常工作范圍 18-26 度;相對濕度正常工作范圍 40%-70% ;當發(fā)現(xiàn)溫濕度異常時,應及時()
2、嚴格機房進出制度,外來人員應()
3、UPS 電源三相電壓 Vab、Vbc、Vca 正常時顯示應為(),用藍,黑顏色和字母()來標識零線,用 黃 綠 顏色和字母()標識保護地線。
4、空調(diào)非標柜分閘燈亮表示該路電源(),合閘燈亮表示該路電源閉 合。當機房外供電出現(xiàn)中斷以后,空調(diào)非標準柜上市電燈亮起時,需要 按非標柜上的()按鈕,手動合閘。
5、啟動機房氣體消防系統(tǒng)滅火的方法有三種,按照啟動級別依次為 按監(jiān)控 室控制端的()、擊碎機房大門側面的(),到氣瓶間拔出對應樓層的()。
二、選擇題(每題 4 分 共 20 分)
1、MAC地址表示方法正確的是()A、0778 B、202.201.32.100 C、011111110.01001000.11110101.00101010 D、00-60-58-70-C8-9A
2、以下那一項不含在PUE計算的電子信息設備能耗之中()A.通訊機房的傳輸設備 B.模塊機房中客戶的交換機
C.模塊機房中我司自有的云平臺設備 D.值班室的辦公電腦
3、下面不是 IDC 機房的服務器操作系統(tǒng)的是()A、Windows Server 2003、Windows 2008 Server B、Andorid、Symbian、BlackBerryOS、windows mobile C、LINXU、Centos、SUSlinux D、UNIX、freebsd
4、某公司申請到了一個C類IP地址,需要分配給8個子公司,最好的子網(wǎng)掩碼應設為()A、255.255.255.0 B、255.255.255.128 C、255.255.255.240 D、255.255.255.224
5、Cisco 交換機端口指示燈為()的情況下,為正常工作。A.熄滅
B.橘色固定時間間隔緩慢閃動 C.綠色快速閃動
D.綠色固定時間間隔緩慢閃動
三、判斷題(每題 1分,共 10分)
1、值班人員不得隨意屏蔽設備報警。()
2、機房技術檔案可以在論壇中與其他人分享。()
3、各種滅火器材應定位放置,隨時保持有效,人人會使用。()
4、在機房服務器故障巡檢中漏檢,錯檢,在下次注意即可,不同通知相關負責人。()
5、設備測試遠距離取電,多個插排串接不會對設備用電產(chǎn)生安全隱患。()
6、客戶入室維護時發(fā)現(xiàn)未收到入室工單,應安撫客戶并立刻與客響中心確認。()
7、當發(fā)現(xiàn)隱患尚未解決,上一班次已經(jīng)傳報,接班人無須二次傳報。()
8、氣體消防氣體采用無毒惰性氣體,因此在氣體釋放時人員可以站在機房內(nèi)或者機房大門旁。()
9、電源線和網(wǎng)線在條件允許下,可以在同一個走線架上走在一起。()
10、發(fā)現(xiàn)服務器電源模塊與電源線插接處電纜外皮剝落,可能發(fā)生漏電情況,應先保障設備安全,操作設備進行關機操作。()
四、簡答題(每題10分,共60 分)
1、請簡要劃出你所在 IDC 機房的弱電路由圖(包括光纖odf分布,布線弱電橋架分布)。
2、請簡要說明你所在 IDC 機房的設備設施的供電方式和斷電處理方式。
3、簡述下常用網(wǎng)絡命令操作;
(1)檢測機房到“百度網(wǎng)”的網(wǎng)絡連通性;
(2)查看機房到“百度網(wǎng)“的網(wǎng)絡路由,并說出最大延遲和丟包所在 的 IP 地址;
(3)連續(xù) ping 百度網(wǎng) 50 個包,查看丟包率;
4、簡述配置linux環(huán)境下,windows環(huán)境下,開啟遠程桌面的命令或者步驟;
5、請簡要描述你所在 IDC 機房的機柜單路空開跳閘的處理過程和注意事項。
6、請簡要說明下你所在的IDC機房汛期的重要關注事項及位置。
第三篇:數(shù)據(jù)中心運維操作標準及流程
數(shù)據(jù)中心運維操作標準及流程
鄭州向心力通信技術股份有限公司
二零一八年 1 機房運維管理前期準備 1.1 管理目標
機房基礎設施運維團隊應與業(yè)主管理層、IT部門、相關業(yè)務部門共同討論確定運維管理目標。制定目標時,應綜合考慮機房所支持的應用的可用性要求、機房基礎設施設施的等級、容量等因素。目標宜包括可用性目標、能效目標、可以用服務等級協(xié)議(SLA)的形式呈現(xiàn)。不同應用的可用性目標的機房,可設定不同等級的機房基礎設施的運維管理目標。1.2 參與數(shù)據(jù)中心建設過程
機房運維團隊應充分了解自己將要管理的場地基礎設施。對于新建機房,應盡早參與機房基礎設施的建設過程,以便將運維階段的需求在規(guī)劃、設計、建造、安裝和調(diào)試等過程中得到充分的考慮;同時為后期做好運維工作打下基礎。1.2.1 應參與規(guī)劃設計
機房的規(guī)劃設計是一個謹慎和嚴謹?shù)倪^程,需要所有參與機房建設的相關方共同完成,才能確保規(guī)劃和設計的有效性、實用性等要求。其中,基礎設施運維團隊應提出運維要求,從運維經(jīng)驗、實際運維難度、提高運維可易性等方面對規(guī)劃和設計過程進行配合。1.2.2 應參與相關供應商遴選
機房基礎設施運維團隊應參與機房基礎設施設備供應商選擇的全過程,及時地了解各種產(chǎn)品及服務的品牌、型號、規(guī)格等關鍵參數(shù),使之更能滿足運維的要求。并就在安裝、調(diào)試過程中的注意事項等提出建議,還需要對后續(xù)的設備保修等服務提出要求。1.2.3 應參與建造管理
機房的基礎設施運維團隊應積極參與機房基礎設施的建造工作,并協(xié)助做好建設項目的項目管理工作,著重關注工程建造中如材料的使用、工序、建造過程等工作,重點關注隱蔽工程的安裝工藝和質量。機房基礎設施運維團隊應充分了解施工過程中的工藝。對于新建數(shù)據(jù)中心,從施工質量和日后運維方便性出發(fā),盡早發(fā)現(xiàn)施工過程的問題,及時糾正,方便日后運維和節(jié)省日后整改成本。1.3 測試驗證
機房基礎設施投產(chǎn)前的測試驗證是確保機房基礎設施滿足設計要求和運行要求的關鍵環(huán)節(jié)。1.3.1 時間和預算
機房的業(yè)主應設立測試驗證專項預算,預算應包括外部測試驗證服務提供商的相關費用,以及在測試驗證階段產(chǎn)生的電費、水費、油費等相關費用。應制定測試驗證的工期規(guī)劃,以更準確地預測機房基礎設施交付投產(chǎn)的日期。1.3.2 測試驗證參與方
項目建設管理部門可作為測試驗證工作的主體責任單位;運維管理部門可作為測試驗證工作的主體審核單位;第三方測試服務商可作為測試驗證的實施單位及整體組織工作的協(xié)調(diào)單位。但運維管理部門應要求測試服務商預先提供測試方案,在運維管理部門審核后方可進行。機房基礎設施運維團隊可參與測試驗證工作,在此過程中熟悉設施和設備,可建立相關運維技術文檔庫,為后期的運維工作做好準備。
機房關鍵設備提供商及工程總包商,應積極配合測試驗證工作,應在供應商合同中對此項有明確要求。1.3.3 測試驗證內(nèi)容
驗證應覆蓋所有關鍵子系統(tǒng)和設備應具備的功能和關鍵的操作程序,確保滿足設計要求,必要時可做故障情景模擬來檢驗。
測試驗證中發(fā)現(xiàn)設計或者建設階段的問題,應該在報告中充分體現(xiàn);可以改造的部分,應要求建設單位進行改造;不能改造或暫時不需改造部分,應作為風險點在運維過程中予以特別的重視,并制定相關預案。
1.3.4 設施健康評估
當接手已在運行的機房基礎設施的運維工作前,運維團隊應對設施的情況進行健康評估,了解潛在風險點,其中能夠改造的部分,應該申請予以優(yōu)化改造。不能改造的部分,應該作為風險點在運維中予以特別的重視,并制定相關預案。1.4 技術文檔
完整并準確的技術文檔是后期運行、維護、維修、故障診斷、優(yōu)化改造的基礎。運維團隊在開展運維工作前,應從施工單位得到場地基礎設施的全套相關文檔,包括但不限于:機房的規(guī)劃設計資料及竣工圖紙、全套設備的清單及相關操作文檔和保修保養(yǎng)資料、機房自動操作系統(tǒng)的邏輯圖及說明文檔、監(jiān)控系統(tǒng)的點表、驗收測試文檔、機房所在建筑的建筑設計資料、竣工圖紙。整體文檔應在限定時限內(nèi)進入運維管理知識庫,并按照質量管理的原理和要求設定文檔的起草、變更、審核、批準、保存、分發(fā)等職責權限。1.5 管理邊界
為了明確管理責任,機房基礎設施運維團隊應將可能影響機房基礎設施運維目標達成的外界因素整合成管理邊界報告,提交業(yè)主管理層并組織研討,形成明確的決策,制定完整的協(xié)調(diào)溝通機制及權責界限。這些因素包括但不限于:不歸本部門負責,但可能對于本部門有重大影響的供電、供水、供暖、制冷、消防、安防、監(jiān)控、運營商線路接入等系統(tǒng)。安全管理和質量管理建議 2.1 人員安全
機房基礎設施運維團隊要編制正式的機房生產(chǎn)環(huán)境(工作場所)的安全方針,設定嚴格的安全生產(chǎn)規(guī)范;并根據(jù)安全方針制定有效的、明確的安全計劃,來教授和培訓安全原則、危險識別、糾正缺陷和控制風險。并加強對于該部分規(guī)范的合規(guī)度的培訓、考試和審核檢查,以確保機房運維人員的人身安全。相關安全生產(chǎn)規(guī)范主要包括:
●機房生產(chǎn)環(huán)境安全管理規(guī)范; ●機房基礎設施各系統(tǒng)安全管理手冊; ●機房基礎設施涉及安全的應急預案; ●機房基礎設施管理過程涉及的技術方案中的安全管理策略。機房基礎設施中與電氣相關的工作存在著固有危險。設施運維團隊應當創(chuàng)建一份正式電氣安全計劃,以最小化所有工作人員受到電氣傷害的風險,確保現(xiàn)場電氣系統(tǒng)達到相關法規(guī)標準。電氣安全計劃中的條款應規(guī)定電氣工作人員在有資質和具備合理安全工作流程的前提下才能進行操作,并應利用防護設備和其他控制手段,如上鎖掛牌設備。此計劃的創(chuàng)建旨在防止員工受到電擊、燒傷、電弧和其他潛在電氣安全隱患,同時要求其遵守法規(guī)標準。
相關國家、行業(yè)規(guī)程包括但不限于:
●GB 26860電力安全工作規(guī)程 發(fā)電廠和變電站電氣部分; ●DL 408 電業(yè)安全工作規(guī)程。2.2 物理環(huán)境安全
應了解周邊社會環(huán)境信息,評估潛在的安全風險并制定預案。這些信息宜包含但不限于:周邊交通路況、醫(yī)院、供油站、消防站、變電站、供水、供電、供氣、網(wǎng)絡通信線路等。可建立周邊社會環(huán)境管理資料庫。
應了解機房所在地的歷史自然災害情況。包含但不限于GB50174 及TIA-942中提到的所有評估機房選址的外部因素,并制定相應的管理預案。
應建立并執(zhí)行嚴格的機房設備、人員、車輛進出管理制度。應設立不同安全區(qū)等級(參考ISO27001信息安全管理中的物理安全控制)并制定訪客管理制度,用以有效管理訪客。2.3 質量管理
在機房基礎設施運維過程中建立完善的質量管理體系,是保障以上機房基礎設施運維趨于卓越的重要因素和手段。機房基礎設施運維團隊的所有關鍵工作應包括以下的質量管理要素: 2.3.1 質量保證
●過程制定; ●程序制定; ●過程審核和批準; ●過程和程序培訓。2.3.2 質量控制
●事件回顧; ●質量檢查和檢驗; ●定期質量審核。2.3.3 質量改進
●故障分析; ●經(jīng)驗教訓; ●優(yōu)化及創(chuàng)新計劃。人員管理建議 3.1 組織及人員 3.1.1 組織架構
機房運維團隊應有清晰的組織架構,同時對各崗位有明確的崗位職責說明并在計算機化維護管理系統(tǒng)(CMMS)中實現(xiàn)權責匹配,同步更新。中大型數(shù)據(jù)中心場地基礎設施運維團隊中除現(xiàn)場負責人外,可按照工作內(nèi)容分設以下幾個主要職能崗位:
●運維巡檢團隊
主要職責:對基礎設備設施進行巡檢,擔任值班工作,第一時間發(fā)現(xiàn)故障或問題,并作為管理程序的執(zhí)行者。
●技術管理團隊
主要職責:對機房基礎設施提供運維技術支持,解決技術問題,承擔機房基礎設施一般性的優(yōu)化改造工程的項目管理工作,宜包括電氣、空調(diào)、弱電等系統(tǒng)的技術人員。
● 物理環(huán)境安全管理團隊
主要職責:對物理環(huán)境安全進行管理,進行安全巡檢等工作。3.1.2 人員配制
機房基礎設施運維人員的配備應根據(jù)運維管理目標或SLA來確定。中高等級的機房,可按照7X24的運行要求配置運維人員。上崗人員應具備國家要求的相應資格證書。應在運維管理程序中明確規(guī)定資質等級與操作權限的一致性。
高等級以及具有一定規(guī)模的機房,每個班組應配備具有電力、暖通、弱電專業(yè)能力的運維人員,以達到“即時應急響應”的工作狀態(tài)。等級相對低的機房,每個班需要至少配備一人,達到“即時報警”的工作狀態(tài)。
運維團隊的關鍵崗位應有人員備份和儲備。機房基礎設施運維管理團隊的關鍵管理人員或關鍵崗位人員在正常運維工作開展中應采用A、B 角色配置,日常工作中應注意角色的分配和工作的配合。其它崗位人員宜建立良好的循環(huán)機制,人員可進行崗位輪換和交叉培訓,使所有人員掌握全面的基礎知識。3.1.3 績效管理
為了提高機房運維人員的技術技能、職業(yè)素養(yǎng)和提倡團隊合作精神,專業(yè)地、高效率地運行和維護機房基礎設施,有必要建立人員的關鍵績效指標,定期對所有人員的短期和長期績效進行評估,獎優(yōu)罰劣,推動整個運維團隊技術和素質的發(fā)展和改進。3.1.4 人員管理制度
為了保障機房基礎設施運維團隊的創(chuàng)新性、穩(wěn)定性、持續(xù)性,應通過建立合理的人員管理制度,約束人員的工作態(tài)度、行為規(guī)范,提高人員的工作熱情、工作效率和執(zhí)行力,激發(fā)人員正面影響,使團隊一直保有活力來共同努力達成服務等級協(xié)議的要求,運維團隊應該建立運維人員的各項管理制度。這些管理制度應該主要包含(但不限于):
●《日常活動管理制度》; ●《人員安全操作制度》;
●《運維人員基本素質養(yǎng)成管理制度》; ●《安全運行獎懲制度》; ●《節(jié)能運行獎懲制度》; ●《技術創(chuàng)新獎勵制度》; ●《人員晉升制度》; ●《人才儲備制度》; 3.2 培訓及認證
3.2.1 員工培訓及資格認證計劃
對于機房基礎設施運維團隊新員工應進行完整及嚴格的培訓,以確保其盡快具備崗位需要之知識及能力。培訓內(nèi)容應包括機房基礎設施的所有系統(tǒng)的工作原理、操作流程、應急預案、以及管理制度等。
對于所有運維人員宜設定以知識更新、技能提高為目標的培訓及認證計劃。宜要求運維人員不斷提升理論知識,以便于在缺乏操作程序的應急狀態(tài)下進行正確的處置。
可借助行業(yè)第三方專業(yè)培訓及職業(yè)技能鑒定平臺,積極開展運維人員任職資格的評定工作。3.2.2 歷史事件分析學習
運維團隊應將機房基礎設施歷史事件的總結分析作為培訓的重要素材,進行全員培訓;對于新員工應在上崗前予以培訓,以避免相同的事件再次發(fā)生。3.2.3 組織學習
運維團隊管理者應積極參與行業(yè)交流,了解行業(yè)最佳的運維管理實踐,并從行業(yè)故障案例中總結經(jīng)驗,做好自身整改。3.3 運維外包服務商
3.3.1 基礎設施運維外包服務商的選擇
機房基礎設施屬于關鍵性設施,選擇外包運維團隊時應考察其機房基礎設施的運維服務的資質、能力和經(jīng)驗。如機房作為商業(yè)物業(yè)的一部分整體外包運維,應要求外包運維機構針對機房基礎設施設施部分設立專門的有機房基礎設施運維經(jīng)驗的團隊,并嚴格按機房基礎設施的運維規(guī)程規(guī)范執(zhí)行。3.3.2 運維外包服務商的管理
對于外包服務商的員工的管理原則應該參照運維團隊內(nèi)部員工同等要求,相關人員只有在進行培訓并得到相關的認證后才能從事相關的工作。
外包服務商需要嚴格遵循數(shù)機房基礎設施既定的操作流程和安全守則。
機房基礎設施運維管理的最終責任承擔者是機房管理者,責任無法外包。因此,機房應保留運維核心管理人員,對于外包團隊的工作進行審核、監(jiān)督和績效評估管理。設施管理建議 4.1 資產(chǎn)數(shù)據(jù)庫
數(shù)據(jù)中心應建立完整及實時更新的資產(chǎn)數(shù)據(jù)庫。數(shù)據(jù)庫應包括所有關鍵基礎設施設備的清單,還應記錄設備設施的運行情況、事件情況、變更情況、維護保養(yǎng)頻次等信息。
資產(chǎn)數(shù)據(jù)庫應最少包括以下信息: 資產(chǎn)ID:每個資產(chǎn)的唯一標識號
種 類:一級分類(如電氣、制冷、消防系統(tǒng))子 類:二級分類(如 UPS、電池、PDU等)描 述:資產(chǎn)的文字說明 制 造:資產(chǎn)的制造廠家 型 號:制造廠家的產(chǎn)品型號 規(guī) 格:資產(chǎn)的規(guī)格或者標稱值 位 置:位置 ID(房間或區(qū)域)購 買 人:資產(chǎn)維護的負責人 序 列 號:制造廠家的序列號 安裝日期:資產(chǎn)的投產(chǎn)日期 保修期限:保修到期的日期 更 換:預計的資產(chǎn)更換日期 維護頻次:年檢、季檢、月檢等 4.2 預防性維護 4.2.1 預防性維護計劃
預防性維護是為了延長設備的使用壽命和減少設備故障的概率而進行的有計劃的維護。其目的是通過定期檢查和保養(yǎng),使設備的某些缺陷或隱患在變得更嚴重之前被發(fā)現(xiàn)。
運維團隊應根據(jù)系統(tǒng)設備情況與供應商進行溝通,按照供應商的建議提前制定、季度、月度預防性維護計劃。各專業(yè)運維人員需按照各設備系統(tǒng)特性、維護流程及規(guī)范,及時、完整地落實維護工作,并形成客觀實際的記錄和報告予以存檔。運維團隊還應定期對設備的運行狀態(tài)數(shù)據(jù)進行統(tǒng)計和趨勢量化分析,對于異常的趨勢,做出報警及相關預案。預防性維護包括并不限于以下系統(tǒng)設備或內(nèi)容: ●冷水機組、精密空調(diào); ●UPS,開關、和發(fā)電機組; ●消防系統(tǒng)和監(jiān)控系統(tǒng)檢驗; ●蓄電池放電測試;
●配電裝置(高低壓配電裝置)的絕緣性定期試驗; ●二次保護定值實驗;
●每年雨季之前進行的數(shù)據(jù)中心防雷接地裝置測試等。4.2.2 工單管理
運維團隊應建立預防性維護及保養(yǎng)的工單管理系統(tǒng),工單應列出工作內(nèi)容、完成相應工作需要的工具及備件、工作預計完成的時間、工作負責人等信息。
計算機化維護管理系統(tǒng)應該對每份工單從產(chǎn)生到完成進行全程的跟蹤。4.3 操作流程
機房基礎設施的所有操作,均應事先制定詳細的操作流程,經(jīng)過審核后存檔并在后期運行階段嚴格執(zhí)行。4.3.1 維護作業(yè)程序MOP 對機房關鍵基礎設施設備的每次維護、維修、安裝操作,都應事先制定一份MOP??梢笤O備供應商提供MOP的建議,但對于MOP最終確認審核的責任在于運維團隊,批準責任在于運維管理團隊。4.3.2 標準操作流程SOP 所有關鍵基礎設施設備在各種情況下都能執(zhí)行的常用操作都應制定標準操作流程SOP。例如手動啟動發(fā)電機組的操作流程,或將UPS轉換到旁路的操作流程等。4.3.3 應急操作流程EOP 應急操作流程適用于有可能發(fā)生的嚴重故障情況。以下為部分嚴重故障的例子:
●一路市電供電時中斷; ●雙路市電供電時同時中斷; ●單個精密空調(diào)時故障停機; ●全部精密空調(diào)都故障停機; ●單臺UPS時故障停機。4.4 工具及備件管理
運維團隊應根據(jù)資產(chǎn)分類清單及其分類制定最低備件庫存清單并及時補充備件。
測試分析儀器儀表方面可配備進行電氣性能參數(shù)測試、電池測試、接地電阻測試、絕緣性能測試、設備運行溫度測試、風速測試、環(huán)境溫度測試、噪音測試等的儀器儀表。儀器儀表應該定期校準。
應制定相關規(guī)定對操作工具、儀器儀表實行人員負責制或者交接班負責制等管理制度。備件和工具應定期進行盤點。4.5 供應商管理
應該按照機房基礎設施運維的資質、以往的經(jīng)驗、業(yè)界的口碑等因素,以注重預防性和預測性維護和提高可用性的相同標準來選擇合格的供應商。
所有供應商到達機房執(zhí)行維護程序之前,應通過機房相關規(guī)程的培訓,獲得機房運維團隊和運維管理層的批準。在執(zhí)行維護活動的過程中要嚴格遵循操作流程。操作時需由運維團隊的人員陪同并監(jiān)督記錄流程的執(zhí)行情況。
供應商的每次機房維護活動都應該提交現(xiàn)場服務報告并存檔。運維團隊應該建立供應商的績效評估方案,并定期對供應商進行績效評估。應設立供應商管理文檔,記錄所有供應商的聯(lián)系方式、服務承諾(SLA)、工作范圍、針對設施的培訓和認證情況等信息。4.6 生命周期管理
應基于設施設備的合理生命周期,結合風險評估,制定設備維護、升級或更換的計劃及預算,及時報告給運維管理部門。
風險評估主要評估內(nèi)容包括: ●資產(chǎn)重要性識別; ●資產(chǎn)威脅識別; ●資產(chǎn)脆弱性識別; ●風險值的計算;
●在評估更換設備的方案時,可綜合考慮原有設備的維護費用以及新設備在能效方面的改進,做好綜合投資回報分析;
●對于冗余設備宜設立輪換運行機制,以延長整體設備的生命周期。
4.7 運維管理系統(tǒng) 機房可建立自動化維護管理系統(tǒng)(MMS),集中實現(xiàn)資產(chǎn)管理、維護調(diào)度、信息安全、文檔管理、工單管理的職能并記錄所有的運維工作任務及完成情況。運行管理建議 5.1 運行管理制度
機房基礎設施運維團隊應建立并嚴格執(zhí)行運行管理制度,包括:5.1.1 巡檢相關管理制度
●日常巡視巡檢管理制度; ●值班管理制度; ●交接班管理制度; ●通知矩陣。
5.1.2 工作流程相關管理制度
●工單處理流程; ●例會制度;
●工作總結報告制度(日、周、月、季、年總結報告);●交付管理規(guī)范;
●運維質量管理辦法文檔管理制度; ●工具備件管理制度。5.1.3 安全相關管理制度
●機房出入管理制度; ●機房現(xiàn)場管理制度;
●機房衛(wèi)生管理制度; ●信息安全相關管理制度。5.1.4 故障處理管理制度
●設備操作管理制度; ●設備故障處理流程; ●應急準備和應急響應流程; ●維護作業(yè)計劃管理制度; ●故障隱患跟蹤反饋管理制度; ●緊急事件匯報流程。5.1.5 經(jīng)營相關管理制度
●員工行為規(guī)范; ●考勤管理制度; ●人員管理考核制度。
5.2 設施監(jiān)控、巡檢、及交接班管理
應配備環(huán)境、動力、安防等監(jiān)控系統(tǒng)以便于運維人員及時了解設施各系統(tǒng)及設備的運行狀態(tài)和及時發(fā)現(xiàn)異常情況。
應規(guī)定相應的運行人員對設施運行狀態(tài)的巡視頻次、巡視工作內(nèi)容及規(guī)范。
運行人員交接班時應對當班執(zhí)行的操作、變更及觀察到的任何異常數(shù)據(jù)或現(xiàn)象進行交接和簽收。5.3 機房清潔管理
應劃定保潔區(qū)域,定期做好機房保潔工作,保證地板及地板下的無塵狀態(tài)。重要區(qū)域進行保潔工作時應有運維人員現(xiàn)場監(jiān)督和指導。5.4 標簽標識管理
應建立針對數(shù)據(jù)中心場地基礎設施設備和物理環(huán)境完整的、清晰的標簽標識管理系統(tǒng)。應至少包括:
●設備標識:包括設備名稱、型號、編號、資產(chǎn)編號等; ●線纜標識:包括起始端信息、終止端信息、設備名稱等; ●警示標識:如“設備已帶電/危險”、“禁止合閘”、“禁止分閘”等;
●物理環(huán)境標識:如位置標識、區(qū)域標識等;
●系統(tǒng)圖展板標識:如電氣、暖通、消防、弱電系統(tǒng)圖展板。這類標識便于運維人員清晰、快捷地掌握區(qū)域及整個數(shù)據(jù)中心系統(tǒng)的配電、制冷、消防、弱電的原理及關鍵點位。5.5 變更管理
任何對于設施運行狀態(tài)的變更應進行預先的風險分析,并基于風險等級,設定相應級別的事前審核流程。在變更方案及變更時間窗口確認后,應進行相應范圍的告知。變更結束后,應向相應范圍部門通報變更結果。5.6 事件管理
應制定事件管理流程,明確不同等級事件下相應的處理流程。5.6.1 事件等級定義
一般事件:任何沒有達到機房設計和運行標準的異常事件; 嚴重事件:任何沒有達到機房設計、運行標準的事件,且對提供的服務造成中斷的事件;
重大事件:任何沒有達到機房設計、運行標準的事件,且對提供的服務造成中斷,且影響范圍大的事件。5.6.2 事件升級
當事件暫時無法排除,需要逐級報告,進入事件升級流程。如遇特殊情況,與直接主管聯(lián)系不上時,可越級向上一級主管報告。
5.7 應急響應
5.7.1 設施應急預案演練
運維團隊應針對應急操作流程EOP進行定期的演練工作,主要包括:
●沙盤演練:參與演練的運維人員集合,并分別口述在發(fā)生緊急情況下自身所應承擔的職責及將會執(zhí)行的方案及步驟;
●跑位演練:參與演練的人員跑位到模擬故障現(xiàn)場,模擬處理故障,參與人員應清晰地說出故障的處理方案及步驟。
應急演練的演練原則是:盡量接近真實情況,在條件允許的情況下盡量真實地處理故障。在運行中的一些特定場景下也可以進行應急演練,如發(fā)電機帶載實驗等。5.7.2 人員安全應急流程
機房基礎設施運維團隊應針對影響運維人員健康的人身事故制定應急流程并定期演練。應急流程可包括設置現(xiàn)場急救包以及聯(lián)系當?shù)蒯t(yī)療急救機構的方式等。5.8 容量管理
容量管理可包括但不限于以下方面: 5.8.1 空間容量
●IT設備擺放空間; ●基礎設備設施擺放空間; ●綜合布線線路空間,配線架管理。5.8.2 能力容量
●電力供應容量; ●空調(diào)供應容量; ●綜合布線信息點容量; ●互聯(lián)網(wǎng)接入容量。
設施運維團隊應與IT 部門定期溝通,動態(tài)了解IT需求的預測,并通報設施容量的使用情況。可制定3個月至36個月周期的IT需求及設施可用容量兩者的對比分析表。
當機房基礎設施不能滿足IT增長的需求時,應提前制定并上報擴容或者新建機房的計劃。5.9 能效管理 5.9.1 能效監(jiān)測
機房基礎設施運維團隊應了解并記錄機房在不同工況及不同外界氣候條件下的電力使用效率 PUE 的變化情況,從中發(fā)現(xiàn)趨勢,以不斷優(yōu)化運行方案。5.9.2 了解IT設備運行特征 機房基礎設施運維人員應具備一定的IT設備相關知識,了解服務器、網(wǎng)絡、存儲等設備的運行特點和功耗情況。還應了解客戶或用戶的業(yè)務基本情況,了解IT 設備的運行峰谷期。
應與客戶或用戶相關部門做好溝通,針對高密度IT負載的部署做出預測,并制定相關應對方案。5.9.3 管理氣流組織
應封堵設施建筑所有可能的漏風口,維持設施的正壓。應疏導設施內(nèi)氣流的流向、封堵所有可能的漏風口、對機柜內(nèi)所有空閑U位安裝盲板、關閉不必要的出風口、保證冷空氣的最佳使用效率。
5.9.4 運行閾值設定
應基于安全性及運行效率的綜合考慮,建立運行閾值設定指南,設置監(jiān)控報警閾值、空調(diào)回風溫度等。5.10 預算管理
運維團隊應做好運維財務預算,上報主管領導及財務部門,并做好預算必要性的溝通解釋工作。
預算應包括但不限于以下內(nèi)容: ●基于SLA的人力預算; ●備件及工具、儀器采購費用; ●應急維護材料費用;
●專業(yè)外包維保和應急服務費用; ●政策性等強制檢測服務費用; ●整改或節(jié)能改造預算; ●突發(fā)問題備用金。
第四篇:云數(shù)據(jù)中心運維問題解析
1、云計算時代的到來,數(shù)據(jù)中心的運行管理工作必然會產(chǎn)生新的問題,提出新的要求,您認為,數(shù)據(jù)中心運維工作發(fā)生了哪些改變?
云計算是當下的技術熱點,云數(shù)據(jù)中心是提供云計算服務的核心,是傳統(tǒng)數(shù)據(jù)中心的升級。
無論是傳統(tǒng)的數(shù)據(jù)中心,還是云數(shù)據(jù)中心,從他們的生命周期來看,運維管理都是整個生命周期中歷時最長的一個階段。
云數(shù)據(jù)中心的運維工作需要我們仔細分析,認真對待。從開源云計算社區(qū)openstack發(fā)布的模塊來看,截止2014年11月,社區(qū)共有項目模塊450個左右,模塊數(shù)量前三的類型是“運維”、“易用性”、“上層服務”,其中運維模塊數(shù)量第一,占到了153個??梢娫朴嬎愕募夹g動向基本上圍繞“如何運維”和“如何使用”。
我們今天的話題就先來說一說云數(shù)據(jù)中心運維的變化。說到云數(shù)據(jù)中心運維工作的變化,就要分析云的特點。云時代數(shù)據(jù)中心最明顯的特點就是虛擬化技術的大量應用,這使得運維管理的對象發(fā)生了變化:
一、云數(shù)據(jù)中心運維對象數(shù)量激增。虛擬化技術將1臺物理服務器虛擬為多臺虛擬服務器,如果數(shù)據(jù)中心支撐業(yè)務需求規(guī)模不變的話,所需要的物理服務器數(shù)量將會減少,這與很多人認為的運維服務器數(shù)量激增是不符的,那么這個“激增”認識是如何產(chǎn)生的呢??梢赃@樣分析,由于虛擬化技術進一步提高了數(shù)據(jù)中心各種資源的使用效率,同時大幅提高了業(yè)務需求響應能力,所以多個傳統(tǒng)數(shù)據(jù)中心合并為一個云數(shù)據(jù)中心在技術上成為了可能。很多跨國企業(yè)采用云計算技術,實現(xiàn)數(shù)據(jù)中心10:1到20:1的合并效果,也就是說如果原來在全球建設1000個數(shù)據(jù)中心,那么現(xiàn)在可以由50到100個云數(shù)據(jù)中心實現(xiàn)對業(yè)務的支撐,在一個合并后的云數(shù)據(jù)中心內(nèi),所要運維的服務器數(shù)量絕對可以稱得上“激增”,這里所說的服務器既包括物理服務器也包括虛擬服務器。與此同時,運維崗位也就是運維人員雖然也進行了調(diào)整,但是人員增加的幅度遠低于設備的增漲幅度,也就是人均運維設備數(shù)量增加了很多,在這種情況下,如果不借助工具、系統(tǒng),很難完成運維工作。
二、在傳統(tǒng)數(shù)據(jù)中心中,設備都是物理的、真實的,位置也是相對固定,對業(yè)務系統(tǒng)來講,交換網(wǎng)絡、服務器、存儲設備對象之間關聯(lián)也是比較固定的,管理起來相對直觀。在云數(shù)據(jù)中心,虛擬化帶來了資源的池化,使得一切管理對象變成虛擬的、可靈活遷移的邏輯存在。虛擬資源可以隨時創(chuàng)建、刪除,再加上高可用需求、性能優(yōu)化需求帶來的虛擬資源遷移,虛擬資源所在的位置變得不固定了,虛擬資源與物理資源的關系也被解耦了,原來很多能說得清、找得到的資源現(xiàn)在不借助工具就再也無法說得清、找得到了。
三、在傳統(tǒng)數(shù)據(jù)中心中,設備監(jiān)控主要是采集故障、性能數(shù)據(jù),容量一般來講還不是運維層面的問題,而是規(guī)劃的問題,當然這也帶來了業(yè)務系統(tǒng)豎井、數(shù)據(jù)中心豎井的問題,以及業(yè)務資源申請周期長的問題。在云數(shù)據(jù)中心中,容量不僅是規(guī)劃問題,同時也是一個運維問題。也就是說,在日常工作中,需要隨時采集資源池容量數(shù)據(jù),不僅要看資源池的總容量,還要看容量在各個物理宿主機上分布情況,以便滿足高可用和遷移的需要。
四、云數(shù)據(jù)中心在管理虛擬設備時,接口的標準化問題。在傳統(tǒng)數(shù)據(jù)中心內(nèi),物理設備已經(jīng)形成了接口標準,提供運維數(shù)據(jù),如snmp、netflow等。而對虛擬化設備,還沒有形成國標或行標,對虛擬設備的運維還需要采用廠家標準。如果在一個云數(shù)據(jù)中心中采用了多個廠家的虛擬化系統(tǒng),運維人員就需要熟悉多個廠家的界面。這個問題的解決,短期來看,需要一個融合的系統(tǒng),為運維人員屏蔽多廠家虛擬化系統(tǒng)的差異,長期來看,希望能夠形成各廠家虛擬化系統(tǒng)的統(tǒng)一接口標準。
云計算帶來了IT服務成本的降低,提高了應對業(yè)務需求的敏捷性,同時,我們也要看到,如果云數(shù)據(jù)中心運維管理調(diào)整不及時,不但運維工作量不減反增,而且運維水平還會降低。
2、當數(shù)據(jù)中心發(fā)展到一定的規(guī)模,人們在數(shù)據(jù)中心管控要求的基礎上,強調(diào)了流程化、自動化運維的模式,以便數(shù)據(jù)中心的運維工作能夠更加快捷高效的開展起來,數(shù)據(jù)中心步入云時代,對于運維工作的流程化、自動化要求,云管理系統(tǒng)能給用戶帶來哪些價值? 虛擬化技術是云數(shù)據(jù)中心的特點,但是云數(shù)據(jù)中心不僅僅是虛擬化。云數(shù)據(jù)中心響應業(yè)務需求的敏捷性,基于虛擬化,這是云數(shù)據(jù)中心的技術基礎。
云數(shù)據(jù)中心以租用的方式向資源用戶提供云服務,包括IaaS、PaaS、SaaS。從運維的角度講,云服務的提供者要如何保障用戶獲得需要的服務呢。
云管理系統(tǒng)保障分配資源給用戶的動作是自動化的,也就是說所有操作完全在線上完成,并且支持批量處理。
在云管理系統(tǒng)中,可創(chuàng)建并保存三個層面的資源模板,分別對應IaaS、PaaS、SaaS三個服務層面。用戶申請某個或某些服務時,云管理系統(tǒng)就會按照相應的模版去創(chuàng)建資源。這是最基本的虛擬資源分配動作。
復雜一些的操作是可配置參數(shù)的資源模板,用戶在申請服務時或運維人員在點擊資源創(chuàng)建按鈕前,可以傳遞一些參數(shù)給創(chuàng)建程序,如操作系統(tǒng)的用戶名、密碼,那么云管理系統(tǒng)在基于相應模板創(chuàng)建虛擬服務器時,會按照參數(shù)設置服務器操作系統(tǒng)管理員的賬號信息。
再復雜一些的自動化動作,是基于模板組合進行的、有順序的、有條件的動作序列,一般用作響應需要多個資源進行部署的業(yè)務系統(tǒng)的服務申請,通過一系列操作,為該業(yè)務系統(tǒng)分配網(wǎng)絡地址、服務器、存儲空間,并進行相關的配置,可定義動作執(zhí)行的順序以及后續(xù)動作執(zhí)行的前提條件。對于特別復雜的動作組,允許進一步分割,也就是定義子動作組。
上述三種操作都是線上的、自動化完成的,這樣的好處就是提高效率。云計算的好處之一就是敏捷分配,如果用戶申請后,還要線下做很多配置,就會明顯延長服務交付時間。同時基于模板的自動化操作也減少了人工線下操作的不確定性。
上面說完了運維的自動化,下面再說一下流程化。在云管理系統(tǒng)中,服務流程既包含了ITIL流程,如事件管理、問題管理、變更管理、發(fā)布管理等,同時也包含了云服務申請和審批的流程,如服務開通、服務變更、服務終止等。云管理系統(tǒng)還提供流程設計器和表單設計器,方便運維人員修改系統(tǒng)提供的服務流程,或者根據(jù)需要新建流程。
3、云時代數(shù)據(jù)中心最明顯的特點就是虛擬化技術的大量應用,這使得管理的對象也在變化。以前的設備都是真實的,位置也是相對固定,管理起來相對直觀。而應用虛擬化技術的結果是將這些資源進行“池化”,使得一切管理對象變成虛擬的、可遷移的存在,如何幫助用戶面對這種挑戰(zhàn)?
我們在談云數(shù)據(jù)中心運維變化時,曾經(jīng)提到過這個問題。在云數(shù)據(jù)中心,虛擬化帶來了資源的池化,使得管理對象變成虛擬的、可靈活遷移的邏輯存在。運維人員很難再說清楚虛擬資源與物理資源的對應關系。
云管理系統(tǒng)會采集虛擬資源的運行數(shù)據(jù),即時掌握資源之間的關系。首先是虛擬資源與物理資源的關聯(lián)信息,比如虛擬機運行在哪臺物理機上。其次,虛擬資源與虛擬資源的關系,如某臺虛擬機與哪個虛擬網(wǎng)絡設備的端口連接,某個虛擬磁盤掛載到了哪個虛擬服務器上。第三,物理資源與空間資源的關聯(lián),可以定位資源的實際部署位置。第四,物理資源與物理資源的關聯(lián)關系。第三點與第四點與傳統(tǒng)數(shù)據(jù)中處理方式并無不同。第五,云管理系統(tǒng),還能夠管理資源與業(yè)務系統(tǒng)的關系,以及資源與用戶的關系。
通過云管理系統(tǒng),運維人員可以即時掌握云數(shù)據(jù)中心中有哪些資源,資源的運行情況,以及資源之間的鏈接,資源分配給了哪個用戶、哪個業(yè)務系統(tǒng),資源在哪,這個在哪既包括了虛擬資源的分布也包括了物理資源的位置。
可以這么說,云管理系統(tǒng)以服務租用的方式向最終用戶屏蔽了云數(shù)據(jù)中心內(nèi)的資源情況,但是運維人員通過云管理系統(tǒng)能夠清清楚楚、明明白白的掌握資源情況,包括虛擬的資源,也包括傳統(tǒng)的資源。
4、目前,云數(shù)據(jù)中心管理的最大挑戰(zhàn)除了上面提到的流程化、自動化和虛擬化,同時還要實現(xiàn)異構資源的融合管理,在這方面云管理系統(tǒng)是如何滿足的? 我們在談云數(shù)據(jù)中心變化時,曾經(jīng)提到過,如果云數(shù)據(jù)中心同時存在多個虛擬化系統(tǒng),由于提供商執(zhí)行各自的廠家標準,要如何去運維。當時我們提到了“融合”,也就是通過一個統(tǒng)一的管理系統(tǒng),去融合、去屏蔽多個虛擬化系統(tǒng)的差異。
需要融合的虛擬化系統(tǒng)有很多,有商業(yè)產(chǎn)品,也有開源系統(tǒng),在這我們不一一說明。但這只是虛擬資源范疇的融合,在我們實際的云數(shù)據(jù)中心運維工程中,我們發(fā)現(xiàn),現(xiàn)階段國內(nèi)的很多云數(shù)據(jù)中心并沒有全盤的虛擬化,這種現(xiàn)象在企業(yè)云數(shù)據(jù)中心中尤其普遍。企業(yè)中一部分業(yè)務系統(tǒng)部署在虛擬環(huán)境中,另外一部分業(yè)務系統(tǒng)部署在物理環(huán)境中,還有一些業(yè)務系統(tǒng),部署環(huán)境同時存在物理資源及虛擬資源。
基于這種情況,云管理系統(tǒng)進一步擴大了“融合”的范疇,管理的資源范圍不僅包括虛擬資源,還包括數(shù)據(jù)中心的物理資源、空間資源、動環(huán)資源,這樣就把云數(shù)據(jù)中心全面地管理起來,既有傳統(tǒng)的,也有虛擬的,而且傳統(tǒng)資源和虛擬資源結合起來管理,使得云數(shù)據(jù)中心的運維更加的智能。比如,我要分配一個虛擬服務器,如果有動環(huán)資源的信息,我不僅可以基于宿主機也就是物理服務器的使用情況做策略,還可以考慮服務器所在區(qū)域的電能、冷能信息。
云數(shù)據(jù)中心是傳統(tǒng)數(shù)據(jù)中心的升級,那么云數(shù)據(jù)中心的運維也應該是傳統(tǒng)數(shù)據(jù)中心的運維升級,不應該缺少原有的運維能力。
5、云數(shù)據(jù)中心解決了業(yè)務系統(tǒng)部署的煙囪問題,通過資源池化及資源自動調(diào)度實現(xiàn)了靈活統(tǒng)一的業(yè)務部署,但不同的業(yè)務系統(tǒng)有其固有的專業(yè)性,對網(wǎng)絡、計算、存儲的規(guī)格要求各不相同,各個業(yè)務系統(tǒng)的服務要求、監(jiān)控要求、故障處理要求等也存在差異,要做到業(yè)務系統(tǒng)的統(tǒng)一部署,又要滿足特定需要,對于云數(shù)據(jù)中心“求同存異”的挑戰(zhàn),云管理系統(tǒng)是如何克服的?
云管理系統(tǒng)以服務租用的方式對云服務用戶屏蔽了云數(shù)據(jù)中心的資源細節(jié)。以計算資源舉例,一般情況下,云服務用戶所看到的、分配給自己的服務器CPU配置都是虛擬的,也就是vCPU,他和物理CPU之間并沒有一個統(tǒng)一的對應關系,甲用戶和乙用戶同樣的虛擬服務器配置,可能由于宿主機品牌、型號、虛擬化方式、超配策略等,在計算能力上會有較大差異,當然,云服務提供的成本也會存在差異。這個差異再加上監(jiān)控、維護等增值服務要求的差異,構成了不同等級的服務水平要求。
云管理系統(tǒng)在資源池劃分方式上支持這種服務水平的差異性管理。云管理系統(tǒng)支持幾種劃分資源池的方式,其中一種就是按資源池等級進行劃分并進行管理。可以定義不同等級的資源池,如金牌、銀牌、銅牌,把物理資源及虛擬資源調(diào)度到不同等級的資源池中,用戶、業(yè)務系統(tǒng)具有相應等級資源池的配額,在配額內(nèi)可以申請、使用資源。其實,關于資源劃分等級的做法在傳統(tǒng)數(shù)據(jù)中心就有,在云數(shù)據(jù)中心中只是加入了虛擬資源而已。
6、對于數(shù)據(jù)中心而言,能效的問題為大家所關注,綠色數(shù)據(jù)中心的話題也一直再提,云管理系統(tǒng)是否能有效幫助云數(shù)據(jù)中心降低能耗?
虛擬化技術帶來的一個好處就是降低能耗,這是基于虛擬機遷移技術實現(xiàn)的。前提是業(yè)務量在某一時間段內(nèi)下降,物理機資源在這段時間內(nèi)存在一定比例的空閑。最好是空閑的比例和時間是能夠預見的,一般來講,這個時間是夜晚。在這個相對空閑的周期內(nèi),通過遷移虛擬機到值班物理服務器的方式,實現(xiàn)部分物理服務器關機休息,達到省電的目的。
云管理系統(tǒng)同樣采用這種方式,通過一段時間的監(jiān)控,分析物理機資源空閑情況,包括每臺物理機資源的空閑比例和空閑時間,每臺物理機上運行虛擬機的配置情況,分析最優(yōu)的虛擬機遷移目的地,最優(yōu)的值班物理機“人選”,做到既省電,又不會因為部分服務器“休息”影響業(yè)務的性能。
第五篇:系統(tǒng)運維工程師
系統(tǒng)運維工程師
系統(tǒng)運維工程師年終個人工作總結及下年工作計劃
時間一晃而過,彈指之間,2010年悄然而至,自從2010年3月份剛進入公司,我是第一次接觸公司、接觸通信行業(yè)、接觸公司網(wǎng)絡管理及維護。雖然跟我的專業(yè)和技能都一致,但所有的實際經(jīng)驗都是第一次,讓我沒有任何準備,同樣也打消了任何顧慮,人生就是這樣,所有的一切都是要從第一次開始,沒有接觸過、干過并不可怕,領導給了我機會,讓我有了一次嘗試、一次展現(xiàn)自己的平臺,那么我一定會更加倍的努力做好工作才是最大的回報。并且也是對自己的一次肯定。經(jīng)過一段時間的工作及陌生環(huán)境的磨合,專心鉆研業(yè)務知識,努力提高理論知識和業(yè)務工作水平。遵紀守法,踏實工作認真完成領導交辦的各項工作任務,使自己漸漸的融入和適應到新的工作環(huán)境中。過去的大半年里在領導和同事們的悉心關懷和支持幫助下,通過自身的不懈努力,在思想、學習和工作等方面取得了新的進步。現(xiàn)總結如下:
一、公司電腦日常維護工作
剛一開始接手工作的時候,發(fā)現(xiàn)公司大部分工作電腦都沒有安裝安全防護軟件和升級系統(tǒng)補?。粏T工隨意安裝系統(tǒng)及應用軟件,致使公司局域網(wǎng)內(nèi)病毒隱患嚴重、工作不穩(wěn)定和系統(tǒng)崩潰,工作秩序被打亂,員工不嚴格要求自己,上班時間聊QQ、玩農(nóng)場、看娛樂網(wǎng)站等;為此公司和個人工作經(jīng)常受到影響,工作效率降低。針對這種情況,我采取了以下措施:
1、先對公司員工進行一次基本知識培訓,讓員工了解到計算機的正確使用方法,病毒防范,重要文件的備份等。從而大大提高了員工對電腦使用的熟練程度。
2、先恢復良好的秩序。電腦使用時如發(fā)現(xiàn)故障和需更改設置,必須先報告公司運維人員,由專門人員來進行專業(yè)及針對化的操作,個人不能私自進行改動,進行這樣做的目的避免由于人為的盲目操作使某一臺電腦的故障影響整個局域網(wǎng)內(nèi)的其它工作,使故障擴大化,并延長了解決問題的周期。
3、使員工使用統(tǒng)一的、經(jīng)過安全測試的系統(tǒng)及應用軟件,安裝、設置統(tǒng)一的殺毒軟件、防火墻等安全防護軟件,且經(jīng)過努力實踐,并在每臺機器上設定了自動系統(tǒng)補丁升級及定期查殺規(guī)則。
4、對于個人的關鍵性數(shù)據(jù)資料、郵件進行路徑轉移備份,使這些數(shù)據(jù)遠離危險故障點,避免意外丟失所帶來的嚴重后果。操作系統(tǒng)進行常規(guī)定期備份,便于事后的還
原。
5、對于網(wǎng)絡管理進行了監(jiān)管工作,公司所有電腦安裝了行為管理軟件后,員工工作效率逐步提高,自覺性得到明顯改進,從而凈化了公司網(wǎng)絡辦公環(huán)境。
經(jīng)過一段時間的貫徹和工作,先前的混亂現(xiàn)象得到有效控制,現(xiàn)公司的十余臺電腦,工作狀態(tài)穩(wěn)定,沒有出現(xiàn)大面積的系統(tǒng)崩潰和故障。
二、網(wǎng)絡的日常維護
路由器及交換機的維護管理,確保公司網(wǎng)絡運行正常,員工正常利用網(wǎng)絡資源。加強路由器的規(guī)則設置,優(yōu)化外網(wǎng)接口,內(nèi)部員工合理地分配帶寬流量,使公司的網(wǎng)絡能穩(wěn)定有效地工作。
三、公司網(wǎng)絡制度管理和完善
公司經(jīng)過一段時間的運轉,各個部門的規(guī)章制度通過大家一起研究、探討、立會并完善制定了各項規(guī)章制度,計算機管理也形成了制度,大家按章辦事,使之成為一種工作習慣。同時公司的資產(chǎn)管理及日常的文書表格非?;靵y和環(huán)節(jié)上的缺失。為此特地制作了一批表格、登記申請單及統(tǒng)計表。使得公司資產(chǎn)和資源得到有效的管理和控制,杜絕管理上的失控和資產(chǎn)流失。
四、公司服務器平臺管理與維護工作
公司發(fā)展逐步擴大,對于公司所有的業(yè)務支撐平臺-服務器,為重中之重;本我司服務器相應出現(xiàn)幾次重大故障,分別如下:
1、網(wǎng)絡故障七次,重大一次,因服務器遭DDOS攻擊,導致我司服務器無法正常工作。事后通過緊急處理后得以恢復正常。其它幾次分別為機房斷電、網(wǎng)絡升級、電信與聯(lián)通DNS解析故障影響到我司服務器平臺網(wǎng)絡連接不正常。
2、系統(tǒng)故障三次,其中一次為短信平臺服務器系統(tǒng)文件損壞,導致系統(tǒng)崩潰。經(jīng)過技術部采用緊急預案措施在兩小時內(nèi)得以恢復系統(tǒng)。
3、其它故障共計5次,因聯(lián)通網(wǎng)關溢出,無法與我司IVR服務器數(shù)據(jù)庫網(wǎng)關同步,導致用戶無法正常訂購與使用我司親情相伴業(yè)務。
經(jīng)過出現(xiàn)幾次重大故障后,技術部多次研究與討論,制定出一套完善的應急措施與日常維護計劃。盡量歸避風險及減少事故發(fā)生,同時確保做到問題提前預防、及時發(fā)現(xiàn)、迅速解決并恢復正常運營。
4、針對服務器出現(xiàn)在問題所在,在技術部其它同事的配合下完成服務器的重新部署,訪問權限及安全性的提高,數(shù)據(jù)庫優(yōu)化等相關措失后,目前服務器已運行正常。
5、公司針對員工的工作崗位與職位重新部署了FTP服務器的訪問權限與互聯(lián)網(wǎng)訪問,使每個員工都能把重要的文件放到服務器上相關部門的文件夾里作備份,且通過內(nèi)外網(wǎng)均可實現(xiàn)訪問FTP服務器,大大方便了員工在外出差或在家里隨時提取相關資料,且員工的訪問權限不一樣,故某些與自己無關或公司重要資料進行了保密設置,從而大大提高了公司重要資料的完整性與保密性??偨Y本的工作,盡管有了一點點的進步和成績,但在一些方面還存在著很多的不足。比如:工作經(jīng)驗不足,對公司的網(wǎng)絡與辦公環(huán)境未得到很大的改善;遇到困難的時候與領導溝通不夠等等,這都有待于在今后的工作中加以改進。
在新的一年里,將百尺竿頭,更進一步,2011年的大致工作計劃為:
1、在公司內(nèi)部使用一種簡便、有效的軟件工作平臺,使之便于公司所有員工的工作、交流、探討,發(fā)布公共信息等(如OA軟件)。
2、利用投影儀設備資源制作會議幻燈片為員工培訓計算機操作及工作常用軟件知識的小竅門,爭取進一步提高全公司工作人員的專業(yè)化及工作效率。
3、解決企業(yè)網(wǎng)站制作等專業(yè)性知識問題,業(yè)余時間強化學習并能勝任網(wǎng)站管理工作。
4、進一步增強IT系統(tǒng)和網(wǎng)絡系統(tǒng)的穩(wěn)定性和管理,使用更為高效的域控制系統(tǒng)來代替目前的工作組局域網(wǎng),使內(nèi)、外網(wǎng)連接任意,在任何地方工作都能連接本公司服務器資源。
5、重新改建機房機柜網(wǎng)絡布線,使機柜走線更加美觀,同時方便以后維護時線路排除更加明了,直觀。
6、在資金允許的情況下對公司辦公電腦、網(wǎng)絡、會議系統(tǒng)布署方案升級優(yōu)化,進一步提高員工工作效率,為公司節(jié)約成本開支。
7、學習更多的網(wǎng)絡知識,充分的將一些新的技術應用到公司當中來。為公司提供更優(yōu)質、更便捷、更效率、更節(jié)能的辦公方式。
2011年,是全新的一年,也是自我挑戰(zhàn)的一年,我將努力改正過去一年工作中的不足,強化理論和業(yè)務學習,不斷提高自身綜合素質,把新一年的工作做好,為公司更好的發(fā)展盡一份力!
擴展閱讀:如何 成為系統(tǒng)運維工程師 要成為系統(tǒng)運維工程師,需要學習那些課程?Windows、Linux、網(wǎng)絡和Oracle哪些知識點需要學習,武漢怎么參加培訓?
[標簽:工程師,linux,oracle] 聽前輩說軟件開發(fā)工程師,以及系統(tǒng)運維工程師,在考慮選擇。大家?guī)兔φf一下我該選什么?學習哪些內(nèi)容?才畢業(yè)沒什么工作經(jīng)驗,該如何準備?
系統(tǒng)運維要求什么都懂一點,主要是基于Linux、UNIX有前途,shell網(wǎng)絡數(shù)據(jù)庫都需要懂一些。越老越吃香知識不需要太多創(chuàng)造性的東西了解基本規(guī)律然后去部署排錯以后轉管理。
我們來看看系統(tǒng)運維都有一些什么要求深入了解Linux/Unix操作系統(tǒng) 深入了解分布式系統(tǒng)、計算機網(wǎng)絡、硬件體系結構
精通Linux/Unix環(huán)境下腳本語言(Shell、Perl、PHP、JSP、Python)的編程熟練使用grep、awk、sed、vi等系統(tǒng)工具
可以學RHCE+CCNP+OCP RHCE是紅帽Linux認證目前最普及的企業(yè)版LINUX發(fā)行版的認證學了通吃LINUX再學一下AIX就UNIX搞定;可以朝RHCA發(fā)展
CCNP基本是思科網(wǎng)絡工程師比較成熟基礎的技能培訓認證,將來有錢了可以朝CCIE發(fā)展
OCPOracle數(shù)據(jù)庫DBA認證專家也是成熟的基礎認證,可以發(fā)展為OCM 這個課程可塑性很強延展性出去能滿足絕大多數(shù)的工作需求至于日常的局域網(wǎng)維護硬件什么的就不說了
你是武漢的話你可以找授權培訓官網(wǎng)都可以查 武漢譽天RHCE+CCNP+OCP 系統(tǒng)運維做的很多啊網(wǎng)絡操作系統(tǒng)數(shù)據(jù)庫網(wǎng)站運維《互聯(lián)網(wǎng)運營智慧--高可用可擴展網(wǎng)站技術實戰(zhàn)》本書深入淺出地介紹運維架構中的各個節(jié)點,從網(wǎng)絡規(guī)劃到服務器安裝到負載均衡、分布式文件系統(tǒng)等架構規(guī)劃,無一不囊括,包括:從簡要說明選擇開源技術作為運營環(huán)境開篇,到選定平臺及工具的部署實施,以實例展示如何使用開源工具,來實現(xiàn)用戶訪問量在1000萬這樣的一個級別的站點功能。
運維工程師熟悉tcpip系列協(xié)議,熟練配置思科和華為網(wǎng)絡能參考手冊配置其他廠商設備包括安全設備
熟悉服務器硬件系統(tǒng)配置操作系統(tǒng)unixlinuxwindows等安裝配置檢測其運行等 熟悉常見的應用如webftp郵件等服務搭建及排查熟悉常見的系統(tǒng)安全設置,以及整個安全體系架構
會安裝及配置維護常見數(shù)據(jù)庫oraclemysqlsql-server等有一定的存儲方面的知識。。。。
要熟悉你服務器的環(huán)境相關的東西特別是網(wǎng)絡相關
熟悉服務器的硬件配置熟悉服務器上的操作系統(tǒng)及各種常見的應用系統(tǒng)熟悉發(fā)生故障的時候處理流程等
不強求你精通內(nèi)核調(diào)優(yōu)等但是你知識要全面而且有一兩手是拿手的 主要想當linux運維,服務器管理方面 最佳答案
操作:下個虛擬機,裝CentOS。
教材:《鳥哥的Linux私房菜基礎學習篇》、《鳥哥的Linux私房菜服務器架設篇》第三版。這兩本書深入淺出,原理講得很透徹而易懂,不像很多書只講皮毛或很枯燥。第三版是以CentOS為例的。
RedHat官方也有教材,但是一來你沒有配套的系統(tǒng)練,二來它的原理方面不如上書講得深。
CentOS和RedHatEnterprise的源代碼是一樣的,很多都兼容。學好CentOS再遷移到RHEL很容易。如果是小型企業(yè),用CentOS就可以了。大型企業(yè)才有必要購買RHEL。
軟硬并施!軟件:主要是服務器操作系統(tǒng)和數(shù)據(jù)庫系統(tǒng)
硬件:服務器硬件,數(shù)據(jù)存儲硬件(如EMC、IBMSAS磁盤陣列,存儲服務器)網(wǎng)絡:Cisco網(wǎng)絡設備,局域網(wǎng),接入網(wǎng),光纖通道存儲網(wǎng)國家電網(wǎng)的工程師,責任重于泰山!
linux運維工程師主要干些什么?有什么要求?我們知道多少?對于linux你了解多少呢?linux運維工程師職責linux運維工程師招聘linux服務器
工作職責:
1、負責Linux操作系統(tǒng)的安裝、配置,系統(tǒng)監(jiān)控和維護,問題處理,軟件升級。
2、負責Linux系統(tǒng)下的常用軟件(如FTPServer、Apache、NginX、MySQL、ORACLE等)安裝及日常維護。
3、負責Linux的系統(tǒng)維護、優(yōu)化。
4、負責Linux系統(tǒng)的網(wǎng)絡安全及數(shù)據(jù)日常備份。
5、會編寫常用的SHELL腳本。
6、能獨立完成新軟件的安裝和配置及工作文檔
7、了解Web技術/Java語言開發(fā),支持其他部門工作。
8、了解TCP/IP/UDP/DDNS協(xié)議,能在Linux配置包括網(wǎng)站服務器,以及DNS/DDNS,和DHCP服務器等。
職位要求:
1、具有2年以上Linux系統(tǒng)維護的經(jīng)驗,熟悉Linux/Unix常用服務的安裝配置與使用
2、精通Linux系統(tǒng)原理,熟悉內(nèi)核參數(shù)調(diào)諧,精通基于linux的常用服務配置,如mail/nginx/dns等,并能夠快速部署;深入掌握apache、tomcat及weblogic配置及調(diào)優(yōu)
3、熟悉Linux系統(tǒng)架構,管理以及優(yōu)化。
4、熟練掌握LINUX網(wǎng)絡安裝、配置、日常管理、安全、備份、恢復、故障處理、日志分析等技能。
5、熟悉虛擬機技術,熟悉虛擬化架構下的系統(tǒng)維護、分布式管理、容錯、備份等技術。
6、熟練掌握交換機,防火墻等常用網(wǎng)絡設備的配置,熟悉TCP/IP協(xié)議
7、熟練相關應用服務器如web、email、ftp、http等
linux運維工程師主要干些什么?有什么要求?我們知道多少?對于linux你了解多少呢?linux運維工程師職責linux運維工程師招聘linux服務器
工作職責:
1、負責Linux操作系統(tǒng)的安裝、配置,系統(tǒng)監(jiān)控和維護,問題處理,軟件升級。
2、負責Linux系統(tǒng)下的常用軟件(如FTPServer、Apache、NginX、MySQL、ORACLE等)安裝及日常維護。
3、負責Linux的系統(tǒng)維護、優(yōu)化。
4、負責Linux系統(tǒng)的網(wǎng)絡安全及數(shù)據(jù)日常備份。
5、會編寫常用的SHELL腳本。
6、能獨立完成新軟件的安裝和配置及工作文檔
7、了解Web技術/Java語言開發(fā),支持其他部門工作。
8、了解TCP/IP/UDP/DDNS協(xié)議,能在Linux配置包括網(wǎng)站服務器,以及DNS/DDNS,和DHCP服務器等。職位要求:
1、具有2年以上Linux系統(tǒng)維護的經(jīng)驗,熟悉Linux/Unix常用服務的安裝配置與使用
2、精通Linux系統(tǒng)原理,熟悉內(nèi)核參數(shù)調(diào)諧,精通基于linux的常用服務配置,如mail/nginx/dns等,并能夠快速部署;深入掌握apache、tomcat及weblogic配置及調(diào)優(yōu)
3、熟悉Linux系統(tǒng)架構,管理以及優(yōu)化。
4、熟練掌握LINUX網(wǎng)絡安裝、配置、日常管理、安全、備份、恢復、故障處理、日志分析等技能。
5、熟悉虛擬機技術,熟悉虛擬化架構下的系統(tǒng)維護、分布式管理、容錯、備份等技術。
6、熟練掌握交換機,防火墻等常用網(wǎng)絡設備的配置,熟悉TCP/IP協(xié)議
7、熟練相關應用服務器如web、email、ftp、http等