欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      linux服務(wù)器故障之運(yùn)維經(jīng)驗(yàn)總結(jié)

      時(shí)間:2019-05-12 04:03:25下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫寫幫文庫小編為你整理了多篇相關(guān)的《linux服務(wù)器故障之運(yùn)維經(jīng)驗(yàn)總結(jié)》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫還可以找到更多《linux服務(wù)器故障之運(yùn)維經(jīng)驗(yàn)總結(jié)》。

      第一篇:linux服務(wù)器故障之運(yùn)維經(jīng)驗(yàn)總結(jié)

      服務(wù)器故障之運(yùn)維經(jīng)驗(yàn)總結(jié)

      作為一個(gè)運(yùn)維人員,遇到服務(wù)器故障是在所難免的,要是再趕上修復(fù)時(shí)間緊、奇葩的技術(shù)平臺(tái)、缺少信息和文檔,基本上這過程都會(huì)慘痛到讓我們留下深刻的記憶。當(dāng)出現(xiàn)此類問題時(shí),應(yīng)該如何處理?本文給大家詳盡的分析了一下,一起來看看。

      我們團(tuán)隊(duì)為上一家公司承擔(dān)運(yùn)維、優(yōu)化和擴(kuò)展工作的時(shí)候,我們碰到了各種不同規(guī)模的性能很差的系統(tǒng)和基礎(chǔ)設(shè)備(大型系統(tǒng)居多,比如CNN或者世界銀行的系 統(tǒng))。要是再趕上修復(fù)時(shí)間緊、奇葩的技術(shù)平臺(tái)、缺少信息和文檔,基本上這過程都會(huì)慘痛到讓我們留下深刻的記憶。

      遇到服務(wù)器故障,問題出現(xiàn)的原因很少可以一下就想到。我們基本上都會(huì)從以下步驟入手:

      一、盡可能搞清楚問題的前因后果

      不要一下子就扎到服務(wù)器前面,你需要先搞明白對(duì)這臺(tái)服務(wù)器有多少已知的情況,還有故障的具體情況。不然你很可能就是在無的放矢。

      必須搞清楚的問題有:

      ? ? ? ? ? ? ? ? ? 故障的表現(xiàn)是什么?無響應(yīng)?報(bào)錯(cuò)? 故障是什么時(shí)候發(fā)現(xiàn)的? 故障是否可重現(xiàn)?

      有沒有出現(xiàn)的規(guī)律(比如每小時(shí)出現(xiàn)一次)

      最后一次對(duì)整個(gè)平臺(tái)進(jìn)行更新的內(nèi)容是什么(代碼、服務(wù)器等)?

      故障影響的特定用戶群是什么樣的(已登錄的, 退出的, 某個(gè)地域的…)? 基礎(chǔ)架構(gòu)(物理的、邏輯的)的文檔是否能找到?

      是否有監(jiān)控平臺(tái)可用?(比如Munin、Zabbix、Nagios、New Relic… 什么都可以)

      是否有日志可以查看?.(比如Loggly、Airbrake、Graylog…)

      最后兩個(gè)是最方便的信息來源,不過別抱太大希望,基本上它們都不會(huì)有。只能再繼續(xù)摸索了。

      二、有誰在? $ w$ last 用這兩個(gè)命令看看都有誰在線,有哪些用戶訪問過。這不是什么關(guān)鍵步驟,不過最好別在其他用戶正干活的時(shí)候來調(diào)試系統(tǒng)。有道是一山不容二虎嘛。(ne cook in the kitchen is enough.)

      三、之前發(fā)生了什么? $ history

      查看一下之前服務(wù)器上執(zhí)行過的命令??匆幌驴偸菦]錯(cuò)的,加上前面看的誰登錄過的信息,應(yīng)該有點(diǎn)用。另外作為admin要注意,不要利用自己的權(quán)限去侵犯別人的隱私哦。到這里先提醒一下,等會(huì)你可能會(huì)需要更新 HISTTIMEFORMAT 環(huán)境變量來顯示這些命令被執(zhí)行的時(shí)間。對(duì)要不然光看到一堆不知道啥時(shí)候執(zhí)行的命令,同樣會(huì)令人抓狂的。

      四、現(xiàn)在在運(yùn)行的進(jìn)程是啥? $ pstree-a$ ps aux

      這都是查看現(xiàn)有進(jìn)程的。ps aux 的結(jié)果比較雜亂,pstree-a 的結(jié)果比較簡(jiǎn)單明了,可以看到正在運(yùn)行的進(jìn)程及相關(guān)用戶。

      五、監(jiān)聽的網(wǎng)絡(luò)服務(wù)

      $ netstat-ntlp$ netstat-nulp$ netstat-nxlp

      我一般都分開運(yùn)行這三個(gè)命令,不想一下子看到列出一大堆所有的服務(wù)。netstat-nalp倒也可以。不過我絕不會(huì)用 numeric 選項(xiàng)(鄙人一點(diǎn)淺薄的看法:IP 地址看起來更方便)。找到所有正在運(yùn)行的服務(wù),檢查它們是否應(yīng)該運(yùn)行。查看各個(gè)監(jiān)聽端口。在netstat顯示的服務(wù)列表中的PID 和 ps aux 進(jìn)程列表中的是一樣的。

      如果服務(wù)器上有好幾個(gè)Java或者Erlang什么的進(jìn)程在同時(shí)運(yùn)行,能夠按PID分別找到每個(gè)進(jìn)程就很重要了。

      通常我們建議每臺(tái)服務(wù)器上運(yùn)行的服務(wù)少一點(diǎn),必要時(shí)可以增加服務(wù)器。如果你看到一臺(tái)服務(wù)器上有三四十個(gè)監(jiān)聽端口開著,那還是做個(gè)記錄,回頭有空的時(shí)候清理一下,重新組織一下服務(wù)器。

      六、CPU 和內(nèi)存

      $ free-m$ uptime$ top$ htop 注意以下問題:

      ? ? 還有空余的內(nèi)存嗎? 服務(wù)器是否正在內(nèi)存和硬盤之間進(jìn)行swap?

      還有剩余的CPU嗎? 服務(wù)器是幾核的? 是否有某些CPU核負(fù)載過多了? ? 服務(wù)器最大的負(fù)載來自什么地方?平均負(fù)載是多少?

      七、硬件

      $ lspci$ dmidecode$ ethtool

      有很多服務(wù)器還是裸機(jī)狀態(tài),可以看一下:

      ? ? 找到RAID 卡(是否帶BBU備用電池?)、CPU、空余的內(nèi)存插槽。根據(jù)這些情況可以大致了解硬件問題的來源和性能改進(jìn)的辦法。

      網(wǎng)卡是否設(shè)置好? 是否正運(yùn)行在半雙工狀態(tài)? 速度是10MBps? 有沒有 TX/RX 報(bào)錯(cuò)?

      八、IO 性能

      $ iostat-kx 2$ vmstat 2 10$ mpstat 2 10$ dstat--top-io--top-bio 這些命令對(duì)于調(diào)試后端性能非常有用。

      ? ? ? ? 檢查磁盤使用量:服務(wù)器硬盤是否已滿? 是否開啟了swap交換模式(si/so)?

      CPU被誰占用:系統(tǒng)進(jìn)程? 用戶進(jìn)程? 虛擬機(jī)?

      dstat 是我的最愛。用它可以看到誰在進(jìn)行 IO: 是不是MySQL吃掉了所有的系統(tǒng)資源? 還是你的PHP進(jìn)程?

      九、掛載點(diǎn) 和 文件系統(tǒng)

      $ mount$ cat /etc/fstab$ vgs$ pvs$ lvs$ df-h$ lsof +D / /* beware not to kill your box */

      ? ? ? ? ? ? 一共掛載了多少文件系統(tǒng)?

      有沒有某個(gè)服務(wù)專用的文件系統(tǒng)?(比如MySQL?)

      文件系統(tǒng)的掛載選項(xiàng)是什么: noatime? default? 有沒有文件系統(tǒng)被重新掛載為只讀模式了?

      磁盤空間是否還有剩余?

      是否有大文件被刪除但沒有清空?

      如果磁盤空間有問題,你是否還有空間來擴(kuò)展一個(gè)分區(qū)?

      十、內(nèi)核、中斷和網(wǎng)絡(luò)

      $ sysctl-a | grep...$ cat /proc/interrupts$ cat /proc/net/ip_conntrack /* may take some time on busy servers */$ netstat$ ss-s

      ? 你的中斷請(qǐng)求是否是均衡地分配給CPU處理,還是會(huì)有某個(gè)CPU的核因?yàn)榇罅康木W(wǎng)絡(luò)中斷請(qǐng)求或者RAID請(qǐng)求而過載了? ?

      ? ? ? SWAP交換的設(shè)置是什么?對(duì)于工作站來說swappinness 設(shè)為 60 就很好, 不過對(duì)于服務(wù)器就太糟了:你最好永遠(yuǎn)不要讓服務(wù)器做SWAP交換,不然對(duì)磁盤的讀寫會(huì)鎖死SWAP進(jìn)程。

      conntrack_max 是否設(shè)的足夠大,能應(yīng)付你服務(wù)器的流量? 在不同狀態(tài)下(TIME_WAIT, …)TCP連接時(shí)間的設(shè)置是怎樣的? 如果要顯示所有存在的連接,netstat 會(huì)比較慢,你可以先用 ss 看一下總體情況。

      你還可以看一下 Linux TCP tuning 了解網(wǎng)絡(luò)性能調(diào)優(yōu)的一些要點(diǎn)。

      十一、系統(tǒng)日志和內(nèi)核消息

      $ dmesg$ less /var/log/messages$ less /var/log/secure$ less /var/log/auth

      ? ? ? 查看錯(cuò)誤和警告消息,比如看看是不是很多關(guān)于連接數(shù)過多導(dǎo)致? 看看是否有硬件錯(cuò)誤或文件系統(tǒng)錯(cuò)誤?

      分析是否能將這些錯(cuò)誤事件和前面發(fā)現(xiàn)的疑點(diǎn)進(jìn)行時(shí)間上的比對(duì)。

      十二、定時(shí)任務(wù)

      $ ls /etc/cron* + cat$ for user in $(cat /etc/passwd | cut-f1-d:);do crontab-l-u $user;done

      ? ? ? 是否有某個(gè)定時(shí)任務(wù)運(yùn)行過于頻繁? 是否有些用戶提交了隱藏的定時(shí)任務(wù)?

      在出現(xiàn)故障的時(shí)候,是否正好有某個(gè)備份任務(wù)在執(zhí)行?

      十三、應(yīng)用系統(tǒng)日志

      這里邊可分析的東西就多了, 不過恐怕你作為運(yùn)維人員是沒功夫去仔細(xì)研究它的。關(guān)注那些明顯的問題,比如在一個(gè)典型的LAMP(Linux+Apache+Mysql+Perl)應(yīng)用環(huán)境里:

      ? ? ? ? ? Apache & Nginx;查找訪問和錯(cuò)誤日志, 直接找 5xx 錯(cuò)誤, 再看看是否有 limit_zone 錯(cuò)誤。

      MySQL;在mysql.log找錯(cuò)誤消息,看看有沒有結(jié)構(gòu)損壞的表,是否有innodb修復(fù)進(jìn)程在運(yùn)行,是否有disk/index/query 問題.PHP-FPM;如果設(shè)定了 php-slow 日志, 直接找錯(cuò)誤信息(php, mysql, memcache, …),如果沒設(shè)定,趕緊設(shè)定。

      Varnish;在varnishlog 和 varnishstat 里, 檢查 hit/miss比.看看配置信息里是否遺漏了什么規(guī)則,使最終用戶可以直接攻擊你的后端?

      HA-Proxy;后端的狀況如何?健康狀況檢查是否成功?是前端還是后端的隊(duì)列大小達(dá)到最大值了? ?

      結(jié)論

      經(jīng)過這5分鐘之后,你應(yīng)該對(duì)如下情況比較清楚了:

      ? ? ? 在服務(wù)器上運(yùn)行的都是些啥?

      這個(gè)故障看起來是和 IO/硬件/網(wǎng)絡(luò) 或者 系統(tǒng)配置(有問題的代碼、系統(tǒng)內(nèi)核調(diào)優(yōu), …)相關(guān)。

      這個(gè)故障是否有你熟悉的一些特征?比如對(duì)數(shù)據(jù)庫索引使用不當(dāng),或者太多的apache后臺(tái)進(jìn)程。

      你甚至有可能找到真正的故障源頭。就算還沒有找到,搞清楚了上面這些情況之后,你現(xiàn)在也具備了深挖下去的條件。當(dāng)然還可以借助ITIL工具對(duì)CMDB資產(chǎn)的關(guān)聯(lián)進(jìn)行深入分析。繼續(xù)努力吧!

      第二篇:服務(wù)器運(yùn)維工作計(jì)劃

      運(yùn)維部下半年工作計(jì)劃

      為了使運(yùn)維工作順利進(jìn)行,運(yùn)營(yíng)部下半年工作計(jì)劃如下:

      1、進(jìn)一步推進(jìn)服務(wù)器的規(guī)劃部署、搭建,以及對(duì)服務(wù)器構(gòu)架、網(wǎng)絡(luò)進(jìn)行優(yōu)化和調(diào)整。

      2、利用監(jiān)控平臺(tái)nagios實(shí)時(shí)監(jiān)控服務(wù)器、網(wǎng)絡(luò)設(shè)備及業(yè)務(wù)系統(tǒng)的運(yùn)行狀態(tài)、性能。根據(jù)監(jiān)控和處理結(jié)果,及時(shí)記錄相關(guān)信息,定期匯總運(yùn)營(yíng)信息。

      3、優(yōu)化公司網(wǎng)絡(luò)、郵件服務(wù)器、語音系統(tǒng)以及解決常見的操作系統(tǒng)、網(wǎng)絡(luò)和應(yīng)用故障。

      4、負(fù)責(zé)突發(fā)性事件的快速響應(yīng)和處理,解決服務(wù)器和網(wǎng)絡(luò)故障。

      5、與開發(fā)人員配合溝通,解決運(yùn)行過程中的相關(guān)問題。

      6、對(duì)日常運(yùn)營(yíng)數(shù)據(jù)的整理分析,然后對(duì)服務(wù)器狀態(tài)監(jiān)測(cè),游戲出現(xiàn)問題的解決。

      7、配合商務(wù)及市場(chǎng)部做好相關(guān)工作。篇二:運(yùn)維部2013年終工作總結(jié)及2014年工作計(jì)劃[1] 古交分公司運(yùn)維部

      2013年工作總結(jié)及2014年工作計(jì)劃 2013年運(yùn)維部在分公司直接領(lǐng)導(dǎo)下及全體部門員工的勤奮努力下,順利完成網(wǎng)絡(luò)維護(hù)、網(wǎng)絡(luò)建設(shè)、網(wǎng)絡(luò)安全等任務(wù),有力的保證了古交數(shù)字電視及互動(dòng)業(yè)務(wù)發(fā)展,全年來的工作總結(jié)和2014年計(jì)劃如下:

      一、網(wǎng)絡(luò)維護(hù)及建設(shè) 1,城農(nóng)網(wǎng)維護(hù)建設(shè) 1)、在分公司的正確領(lǐng)導(dǎo)及相關(guān)部門的大力支持下,運(yùn)維部全體人員的勤奮工作。城農(nóng)網(wǎng)維護(hù)截止12月份,運(yùn)維部共處理用戶故障電話報(bào)修 次,安裝普通用戶 戶,搬遷用戶 戶,開通副機(jī)用戶 戶,安裝互動(dòng)用戶 戶,以舊換新 戶,互動(dòng)副機(jī) 戶,提高了網(wǎng)絡(luò)覆蓋量,更有力的提升了市場(chǎng)競(jìng)爭(zhēng)力。2),完成網(wǎng)絡(luò)新建工程立項(xiàng) 項(xiàng),實(shí)施 項(xiàng)等幾個(gè)光節(jié)點(diǎn)網(wǎng)絡(luò)覆蓋面積,促進(jìn)了業(yè)務(wù)發(fā)展和業(yè)務(wù)收入的增加。2,網(wǎng)絡(luò)優(yōu)化建設(shè)

      在分公司領(lǐng)導(dǎo)親自帶領(lǐng)下,全年對(duì)全市所轄網(wǎng)絡(luò)進(jìn)行了數(shù)字互動(dòng)電視整體轉(zhuǎn)換前的規(guī)劃與設(shè)計(jì)。為2014年全面開展互動(dòng)業(yè)務(wù)打下一個(gè)堅(jiān)實(shí)的基礎(chǔ)。對(duì)已開通互動(dòng)業(yè)務(wù)的小區(qū),加大了維修力度,并對(duì)局部不符合條件的小區(qū)進(jìn)行了小范圍的局部改造,使其具備開通互動(dòng)業(yè)務(wù)的技術(shù)條件。通過走訪互動(dòng)用戶,普遍反映收視效果良好。

      二、機(jī)房維護(hù)及消防安全工作

      1、在分公司分管領(lǐng)導(dǎo)的指導(dǎo)下制定了《機(jī)房值班制度》及《機(jī)房維護(hù)及消防制度》,根據(jù)制度明確了機(jī)房值班人員,建立和完善各項(xiàng)維護(hù)制度和加強(qiáng)機(jī)房資料及文檔的管理,機(jī)房設(shè)備檢修清掃,做好“三防”工作,確保設(shè)備正常運(yùn)行,保證信號(hào)安全傳輸。

      2、積極配合總公司和機(jī)房對(duì)纖、跳線等工作。對(duì)機(jī)房進(jìn)行不定期檢查,遇到安全隱患及時(shí)排除并上報(bào),遇到節(jié)假日和重要傳輸時(shí)期,都做好了安全上報(bào)等工作。

      3、不定期對(duì)機(jī)房的消防工作進(jìn)行安全檢查,就一些存在的問題進(jìn)行了及時(shí)整改,消除了存在的安全隱患。

      三、加強(qiáng)技術(shù)培訓(xùn),提高隊(duì)伍素質(zhì)

      運(yùn)維部承擔(dān)分公司運(yùn)維和工程建設(shè)的主要隊(duì)伍,面對(duì)工程建設(shè)、網(wǎng)絡(luò)安全等重要任務(wù),要在短時(shí)間內(nèi)保質(zhì)保量完成,無論是組織工作,還是技術(shù)工作都存在較多的難題。為此運(yùn)維部把開展技術(shù)培訓(xùn)作為一項(xiàng)確保工程質(zhì)量、進(jìn)度的重要措施來抓,采取走出去請(qǐng)進(jìn)來的方式,不但多次派員工參加總公司的培訓(xùn)學(xué)習(xí),經(jīng)常利用部門開會(huì)時(shí)間組織運(yùn)維人員進(jìn)行集中學(xué)習(xí)培訓(xùn),還和西山分部的運(yùn)維人員進(jìn)行面對(duì)面經(jīng)驗(yàn)和技術(shù)的交流,提高了維護(hù)人員的技能。

      四、安全工作方面

      1、城農(nóng)網(wǎng)網(wǎng)絡(luò)安全

      根據(jù)城農(nóng)網(wǎng)網(wǎng)絡(luò)安全特性制定,明確片區(qū)運(yùn)維人員為城農(nóng)網(wǎng)網(wǎng)絡(luò)安全巡查維護(hù)人員。片

      區(qū)運(yùn)維人員對(duì)轄區(qū)內(nèi)的光、電纜進(jìn)行巡查并作好日志,對(duì)存在隱患的地方及時(shí)上報(bào)。

      3、維護(hù)人員人生安全

      注重安全生產(chǎn),全年人員無重大傷亡事故發(fā)生。運(yùn)維部多次開展安全學(xué)習(xí)來加強(qiáng)員工安全生產(chǎn)意識(shí),提高自我保護(hù)的能力。

      4、車輛安全

      運(yùn)維部嚴(yán)格按照《車輛安全管理辦法》來管理車輛,禁止無證駕車,嚴(yán)禁公車私用,嚴(yán)禁酒后駕車,嚴(yán)禁開英雄車等。對(duì)分公司運(yùn)維車輛進(jìn)行不同程度的修理維護(hù),杜絕帶病車輛上路有效加大車輛安全程度。

      五、存在問題及不足

      1、目前運(yùn)維部整體須加強(qiáng)思想認(rèn)識(shí)、提高工作效率、提升服務(wù)水平。

      2、特別注重安全生產(chǎn),搞好網(wǎng)絡(luò)干線巡檢工作。

      3、運(yùn)維部目前缺乏新技術(shù)、新業(yè)務(wù)的尖端人才,針對(duì)下一步的數(shù)字雙向網(wǎng)絡(luò)、數(shù)據(jù)等新業(yè)務(wù),加強(qiáng)能承擔(dān)新的維護(hù)任務(wù)技術(shù)的培訓(xùn)及業(yè)務(wù)學(xué)習(xí)。

      4、加強(qiáng)運(yùn)維文檔的管理,提高維護(hù)質(zhì)量。做好每月必須及時(shí)認(rèn)真上報(bào)的各類報(bào)表。

      5、隨著城區(qū)、農(nóng)村網(wǎng)絡(luò)的進(jìn)一步擴(kuò)大,運(yùn)維人員不夠的問題制約著運(yùn)維部的快速反應(yīng)機(jī)制。

      6、進(jìn)一步提高運(yùn)維部人員的福利待遇,提高工作積極性。六、2014年工作計(jì)劃

      1、繼續(xù)抓好網(wǎng)絡(luò)維護(hù)質(zhì)量管理和科技維護(hù)水平,提高網(wǎng)絡(luò)運(yùn)行質(zhì)量。

      2、繼續(xù)抓好、抓實(shí)干線巡查工作。

      3、積極配合做好城農(nóng)網(wǎng)、城區(qū)管道網(wǎng)絡(luò)建設(shè)服務(wù)等工作的準(zhǔn)備開工建設(shè)及其他工作任務(wù)。

      4、按計(jì)劃搞好網(wǎng)絡(luò)新建、小區(qū)新建的立項(xiàng)及建設(shè)和竣工及驗(yàn)收工作。

      5、落實(shí)運(yùn)維部的各項(xiàng)管理制度,明確目標(biāo)管理,理順工作流程,提高工作效率、提升服務(wù)水平。

      6、完善安全生產(chǎn)制度,搞好安全生產(chǎn)工作。

      古交分公司運(yùn)維部

      程永亮 2014年1月7日篇三:2009運(yùn)維服務(wù)能力管理計(jì)劃 2009運(yùn)維服務(wù)能力管理工作計(jì)劃

      根據(jù)公司本的工作計(jì)劃,運(yùn)維部結(jié)合本部門的工作實(shí)際,及相關(guān)的it運(yùn)維服務(wù)工作的改進(jìn)需求,特制定本工作計(jì)劃,內(nèi)容共分為四部分,包括:

      1、運(yùn)維管理組織結(jié)構(gòu)

      2、運(yùn)維服務(wù)流程

      3、應(yīng)急服務(wù)響應(yīng)措施

      4、服務(wù)管理制度規(guī)范?,F(xiàn)具體闡述如下:

      一、運(yùn)維管理組織結(jié)構(gòu)

      本運(yùn)維項(xiàng)目的運(yùn)維管理結(jié)構(gòu)位三層模式,具體如下圖所示。由項(xiàng)目負(fù)責(zé)人與甲方進(jìn)行業(yè)務(wù)范圍接洽,并將溝通結(jié)果向下傳遞。項(xiàng)目經(jīng)理負(fù)責(zé)項(xiàng)目的整體運(yùn)維工作,包括各種制度的制定和實(shí)施。運(yùn)維工程師則在項(xiàng)目經(jīng)理的指導(dǎo)下開展維護(hù)工作。1.項(xiàng)目負(fù)責(zé)人

      職責(zé):負(fù)責(zé)項(xiàng)目商務(wù)、整體協(xié)調(diào)事宜。

      職位描述: 1)、整體負(fù)責(zé)建設(shè)單位運(yùn)維項(xiàng)目服務(wù)計(jì)劃的制定,領(lǐng)導(dǎo)項(xiàng)目經(jīng)理并安排項(xiàng)目工作,指導(dǎo)項(xiàng)目經(jīng)理完成具體維護(hù)工作,每周聽取項(xiàng)目經(jīng)理的工作匯報(bào),負(fù)責(zé)考核項(xiàng)目經(jīng)理工作完成情況。2)、協(xié)助建設(shè)單位完成新增項(xiàng)目的調(diào)研、方案設(shè)計(jì)并指導(dǎo)項(xiàng)目經(jīng)理進(jìn)行具體實(shí)施。2.項(xiàng)目經(jīng)理

      職責(zé):規(guī)劃、執(zhí)行、完善信息化項(xiàng)目的運(yùn)維工作,指導(dǎo)網(wǎng)絡(luò)、數(shù)據(jù)庫維護(hù)工程師開展工作。

      職位描述: 1)根據(jù)公司戰(zhàn)略目標(biāo),指導(dǎo)下屬工程師開展客戶服務(wù)工作,確保運(yùn)維工作能夠滿足客戶的實(shí)際需要; 2)建立和持續(xù)完善運(yùn)維管理體系,優(yōu)化運(yùn)維流程流程,解決運(yùn)維服務(wù)中出現(xiàn)的特殊問題; 3)規(guī)劃并提升運(yùn)維工程師專業(yè)服務(wù)能力,在整體上提高客戶滿意度; 4)制定和持續(xù)完善績(jī)效考核體系; 5)制定整理運(yùn)維項(xiàng)目的應(yīng)急預(yù)案系統(tǒng),并指導(dǎo)運(yùn)維工程師實(shí)施; 6)提高自身專業(yè)技能,在業(yè)務(wù)方面給予網(wǎng)絡(luò)管理員和數(shù)據(jù)庫管理員指導(dǎo)。3.技術(shù)主管

      職責(zé):應(yīng)用、數(shù)據(jù)庫管理,oracle性能調(diào)優(yōu),實(shí)現(xiàn)應(yīng)用負(fù)載均衡。職位描述: 1)技術(shù)主管非項(xiàng)目常駐人員,根據(jù)項(xiàng)目需要進(jìn)行專業(yè)方面

      指導(dǎo);

      2)負(fù)責(zé)數(shù)據(jù)庫性能分析與調(diào)優(yōu),數(shù)據(jù)庫運(yùn)行狀態(tài)監(jiān)控,及

      時(shí)發(fā)現(xiàn)異常并快速處理。

      2)熟練掌握oracle10g的rac技術(shù),能夠?qū)崿F(xiàn)部署及調(diào)優(yōu)。3)掌握was、weblogic、tomcat、websphere等中間件的工

      作原理,能夠?qū)崿F(xiàn)部署調(diào)優(yōu)及故障解決。4)熟練掌握red-flag、redhat等linux操作系統(tǒng),部署 證oracle數(shù)據(jù)庫冗災(zāi)、數(shù)據(jù)保護(hù)、故障恢復(fù)。5)負(fù)責(zé)應(yīng)用負(fù)載均衡的部署和調(diào)試。6)負(fù)責(zé)指導(dǎo)數(shù)據(jù)庫工程師管理員開展工作。4.服務(wù)臺(tái)

      職責(zé):故障電話受理,文檔管理。

      職位描述

      1)負(fù)責(zé)it業(yè)務(wù)的救助電話的受理工作; 2)故障處理的發(fā)起人,同時(shí)進(jìn)行維護(hù)工程師指派,跟蹤事件處理狀態(tài); 3)進(jìn)行維護(hù)故障統(tǒng)計(jì)、用戶滿意度統(tǒng)計(jì)、工作報(bào)表輸出等工作; 4)協(xié)助項(xiàng)目經(jīng)理,進(jìn)行文檔整理、歸類、保存等工作。5.網(wǎng)絡(luò)管理員

      職責(zé):維護(hù)建設(shè)單位網(wǎng)絡(luò)系統(tǒng)正常,解決網(wǎng)絡(luò)相關(guān)故障。

      職位描述:

      1)對(duì)現(xiàn)有服務(wù)器、局域網(wǎng)絡(luò)及機(jī)房、配線間的日常管理維護(hù); 2)對(duì)信息安全建設(shè)提出相關(guān)建議,確保網(wǎng)絡(luò)的安全; 3)保證外網(wǎng)光纖線路正常,保證局域網(wǎng)運(yùn)行正常; 4)對(duì)網(wǎng)絡(luò)系統(tǒng)和網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài)進(jìn)行監(jiān)控; 5)熟練掌握域策略設(shè)置、dhcp、dns、ftp服務(wù)器、ntfs權(quán)限設(shè)置等; 6)編寫網(wǎng)絡(luò)部分的應(yīng)用處理預(yù)案并實(shí)施。7)工作認(rèn)真、細(xì)致,積極主動(dòng)有條理性,具有良好的溝通能力及團(tuán)隊(duì)合作精神.6.應(yīng)用、數(shù)據(jù)庫管理員

      職責(zé):維護(hù)建設(shè)單位業(yè)務(wù)系統(tǒng)運(yùn)行正常,解決應(yīng)用和數(shù)據(jù)庫故障。職位描述: 1)監(jiān)測(cè)業(yè)務(wù)系統(tǒng)運(yùn)行狀況,應(yīng)用、數(shù)據(jù)庫性能監(jiān)視及優(yōu)化,作必要調(diào)整; 2)規(guī)劃不同數(shù)據(jù)的生命周期,制訂備份、恢復(fù)、遷移和災(zāi)備策略,根據(jù)業(yè)務(wù)的需要執(zhí)行數(shù)據(jù)轉(zhuǎn)換及遷移等操作;

      3)保證應(yīng)用和數(shù)據(jù)庫系統(tǒng)的安全性、完整性和運(yùn)行效率。4)負(fù)責(zé)數(shù)據(jù)庫平臺(tái)的整體架構(gòu)及解決方案的制定和實(shí)施; 5)工作認(rèn)真、細(xì)致,積極主動(dòng)有條理性,具有良好的溝通能力及團(tuán)隊(duì)合作精神.7.終端管理員

      職責(zé):維護(hù)建設(shè)單位桌面系統(tǒng)運(yùn)行正常,解決終端、外設(shè)故障。職位描述: 1)各部門電腦、打印機(jī)、傳真機(jī)的維護(hù); 2)對(duì)各部門職員進(jìn)行電腦相關(guān)的技術(shù)支持及培訓(xùn)工作; 3)精通windows xp及office的使用,能夠熟練使用excel2003、excel2007及以上版本,能夠制作相應(yīng)教程對(duì)其他部門員工進(jìn)行培訓(xùn)

      二、運(yùn)維服務(wù)流程 it運(yùn)維服務(wù)管理流程涉及服務(wù)臺(tái)、事件管理、問題管理、配置管理、變更管理、發(fā)布管理、服務(wù)級(jí)別管理、財(cái)務(wù)管理、能力管理、可用性管理、服務(wù)持續(xù)性管理、知識(shí)管理及供應(yīng)商管理等,隨著運(yùn)維活動(dòng)的不斷深入和持續(xù)改進(jìn),其他流程可能會(huì)逐步獨(dú)立并規(guī)范。

      三、應(yīng)急服務(wù)響應(yīng)措施

      運(yùn)維項(xiàng)目組制定了詳盡的應(yīng)急處理預(yù)案,整個(gè)流程嚴(yán)謹(jǐn)而有序。但在服務(wù)維護(hù)過程中,意外情況將難以完全避免。我們將對(duì)項(xiàng)目實(shí)施的突發(fā)風(fēng)險(xiǎn)進(jìn)行詳細(xì)分析,并且針對(duì)各類突發(fā)事件,設(shè)計(jì)了相應(yīng)的預(yù)防與解決措施,同時(shí)提供了完整的應(yīng)急處理流程。1.應(yīng)急預(yù)案實(shí)施基本流程篇四:運(yùn)維服務(wù)管理計(jì)劃 2013服務(wù)管理計(jì)劃

      版權(quán)信息

      本文件涉及之信息,屬xxxx有限公司所有。

      未經(jīng)xxxx通信技術(shù)有限公司允許,文件中的任何部分都不能以任何形式向第三方散發(fā)。xxx技術(shù)有限公司 模板編號(hào):r.qly.103b xxx有限公司 模板編號(hào):r.mat.103b 1.總體介紹 1.1 計(jì)劃總則 2013服務(wù)管理計(jì)劃用于指導(dǎo)公司服務(wù)團(tuán)隊(duì)在本內(nèi)按照服務(wù)級(jí)別協(xié)議(下簡(jiǎn)稱“sla“)以及服務(wù)目錄,實(shí)施服務(wù)管理與服務(wù)運(yùn)營(yíng)活動(dòng)。實(shí)施服務(wù)管理計(jì)劃的目的是達(dá)成公司既定的服務(wù)質(zhì)量目標(biāo)、規(guī)劃并合理使用資源、保證業(yè)務(wù)連續(xù)性和it服務(wù)連續(xù)性、不斷改進(jìn)服務(wù)過程。為客戶提供穩(wěn)定、安全、高效運(yùn)行的業(yè)務(wù)系統(tǒng)。為建立符合國(guó)際/國(guó)內(nèi)服務(wù)標(biāo)準(zhǔn)的運(yùn)維服務(wù)體系進(jìn)行嘗試。1.2 適用范圍

      用于服務(wù)管理的全生命周期過程,計(jì)劃內(nèi)容在實(shí)際執(zhí)行過程中若有變更,則將適時(shí)修改計(jì)劃內(nèi)容,并由總經(jīng)理批準(zhǔn)后發(fā)布。2.總體概述 2.1 組織架構(gòu) xxxx公司運(yùn)維服務(wù)體系組織架構(gòu)圖

      具體職能參見《xxxx運(yùn)維服務(wù)體系組織結(jié)構(gòu)圖及職責(zé)》。2.2 服務(wù)目標(biāo) xxx有限公司 模板編號(hào):r.mat.103b 3.服務(wù)質(zhì)量管理計(jì)劃 3.1 服務(wù)質(zhì)量管理活動(dòng)

      為達(dá)成服務(wù)質(zhì)量目標(biāo),檢查運(yùn)維體系的實(shí)施情況,2013計(jì)劃執(zhí)行的服務(wù)質(zhì)量管理活動(dòng)有: 3.1.1 運(yùn)維服務(wù)能力內(nèi)審

      審核運(yùn)維服務(wù)活動(dòng)及其結(jié)果是否符合策劃的安排,確保運(yùn)維服務(wù)體系的有效性。

      運(yùn)維服務(wù)能力內(nèi)審由質(zhì)量部負(fù)責(zé)組織實(shí)施。3.1.2 運(yùn)維服務(wù)能力管理評(píng)審

      管理評(píng)審目的是對(duì)公司運(yùn)維服務(wù)管理體系進(jìn)行系統(tǒng)評(píng)審,識(shí)別并確定各種改進(jìn)的機(jī)會(huì)和需要,確保運(yùn)維服務(wù)管理體系持續(xù)的適宜性、充分性和有效性。xxx有限公司 模板編號(hào):r.mat.103b 運(yùn)維服務(wù)能力管理評(píng)審由管理者代表負(fù)責(zé)組織實(shí)施,質(zhì)量部協(xié)助。3.1.3 運(yùn)維服務(wù)體系過程改進(jìn)

      日常工作中,通過對(duì)運(yùn)維服務(wù)項(xiàng)目過程的監(jiān)督檢查,收集服務(wù)提供過程中存在的問題,確定運(yùn)維服務(wù)改進(jìn)的需求。

      定期收集和分析運(yùn)維服務(wù)指標(biāo)完成情況,發(fā)現(xiàn)并確定運(yùn)維服務(wù)改進(jìn)需求。各相關(guān)指標(biāo),每季進(jìn)行收集和分析。

      對(duì)客戶反饋意見進(jìn)行收集和分析(包括滿意度調(diào)查結(jié)果和客戶投訴意見),了解客戶意見和需求,為改進(jìn)提供依據(jù)??蛻魸M意度調(diào)查每季開展一次。

      完成2012未關(guān)閉的過程改進(jìn)事項(xiàng),詳見《運(yùn)維服務(wù)能力管理改進(jìn)建議與跟蹤表》。3.1.4 服務(wù)過程質(zhì)量監(jiān)督

      質(zhì)量部通過對(duì)運(yùn)維服務(wù)項(xiàng)目進(jìn)行過程監(jiān)督檢查,及時(shí)發(fā)現(xiàn)問題并督促問題及時(shí)解決和改進(jìn),以確保運(yùn)維服務(wù)按服務(wù)規(guī)范實(shí)施并按約交付服務(wù)。服務(wù)質(zhì)量監(jiān)督檢查由質(zhì)量專員制定《項(xiàng)目質(zhì)量保證計(jì)劃》,按計(jì)劃實(shí)施并報(bào)告。3.2 運(yùn)維服務(wù)質(zhì)量管理計(jì)劃 xxx有限公司 模板編號(hào):r.mat.103b篇五:2015年運(yùn)維部工作計(jì)劃.修改 2015年工作計(jì)劃

      結(jié)合公司今年運(yùn)營(yíng)發(fā)展的思路,我部門今年將重點(diǎn)提升網(wǎng)絡(luò)服務(wù)質(zhì)量,提高運(yùn)維人員綜合業(yè)務(wù)素質(zhì)。

      一 運(yùn)維部基本情況: 運(yùn)維部主要維護(hù)十二師轄區(qū)和烏魯木齊市區(qū)兩部分,其中十二師轄區(qū)內(nèi)有五大團(tuán)場(chǎng)片區(qū),共有用戶44126(穿線用戶)實(shí)際使用用戶為35525 ,三網(wǎng)用戶2237戶,現(xiàn)有維護(hù)員13人。

      市區(qū)維護(hù)26個(gè)小區(qū),共有用戶22570, 現(xiàn)有維護(hù)員2 人.二 2014年運(yùn)維部維修故障分析 2013年全年故障發(fā)生共10657起,占總用戶數(shù)的2.5% ,故障率為,主要分為:馬賽克,裝修改線,公用電停電,用戶光纖損壞,拆遷,機(jī)頂盒壞等。1小區(qū)共用電停電造成的故障占運(yùn)維故障的50%,主要原因是:不能及時(shí)補(bǔ)電,交納電費(fèi)受小區(qū)物業(yè)的控制.2 用戶光纖損壞(人為和自然、工程)占10%,加強(qiáng)日常線路維護(hù)。3老機(jī)頂盒損壞5%,主要原因,大部分用戶是2009年左右的用戶,使用壽命已到,造成故障.4 用戶裝修改線15%造成線路不通,和用戶光纖的損壞造成二次熔接。5 拆遷用戶的維修10%.6 其他原因占10%.三 2014年機(jī)房維護(hù)情況說明

      現(xiàn)有機(jī)房10個(gè),計(jì)劃新增機(jī)房1個(gè),存在的問題,分機(jī)房停電不能及時(shí)供電第一時(shí)間到現(xiàn)場(chǎng)解決故障,存在很大的安全隱患。

      四2015年的工作計(jì)劃

      1、重點(diǎn)解快因用電造成的故障,與小區(qū)物業(yè)部協(xié)商取得供電支持,計(jì)劃在今年年初對(duì)轄區(qū)內(nèi)的共用電改造工作。

      2、搶修組已做到責(zé)任制到片區(qū)及時(shí)處理光纖故障,做好對(duì)用戶禁止裝修改線的宣傳工作。

      3、為了提高機(jī)房安全運(yùn)行傳輸質(zhì)量,加快建設(shè)網(wǎng)路機(jī)房監(jiān)控設(shè)施,預(yù)計(jì)建設(shè)現(xiàn)有分機(jī)房11個(gè)。

      4、維護(hù)人員的綜合業(yè)務(wù)素質(zhì) ,加強(qiáng)培訓(xùn),年初針對(duì)運(yùn)維網(wǎng)絡(luò)技術(shù)和公司考核管理的培訓(xùn)計(jì)劃一周一次上半年,下半年兩周一次和對(duì)新進(jìn)員工的資質(zhì)培訓(xùn),月度考試與工資掛鉤,提升運(yùn)維人員的服務(wù)統(tǒng)一標(biāo)準(zhǔn),5、完善安全生產(chǎn)制度,搞好安全生產(chǎn)工作。(1)每月定期對(duì)機(jī)房進(jìn)行尋查、巡檢工作。(2)對(duì)運(yùn)維人員不定期抽檢技術(shù)性工作流程。

      6、加強(qiáng)運(yùn)維人員的市場(chǎng)營(yíng)銷意識(shí),新業(yè)務(wù)推介與提成.7、今年需建設(shè)好主干線的環(huán)路(列如:師機(jī)房至104團(tuán),104團(tuán)至西山等)和網(wǎng)管系統(tǒng),做好網(wǎng)絡(luò)運(yùn)行質(zhì)量.。

      8、今年運(yùn)維部計(jì)劃分5個(gè)大片區(qū)其中城區(qū)26個(gè)小區(qū),用戶22570戶其中現(xiàn)有三網(wǎng)用戶1509戶,3人一輛車維護(hù),西山、104團(tuán)三網(wǎng)用 戶6211戶,3個(gè)人維護(hù),頭屯河農(nóng)場(chǎng)三網(wǎng)用戶7421戶2人維護(hù),三平農(nóng)場(chǎng)三網(wǎng)用戶11360戶2人維護(hù),五一農(nóng)場(chǎng)三網(wǎng)用戶7090戶,2人維護(hù),搶修組4人一輛車負(fù)責(zé)5個(gè)大片區(qū)光纜用戶光纖、主干光纜的維修維護(hù),9、今年工程部改造老校區(qū)的光纖到戶的同時(shí)改造維修量較大的老有線電視小區(qū)。(列如:五一農(nóng)場(chǎng)詒心園小區(qū)一期,樓蘭酒廠,光華學(xué)校等)。

      10、由于公司的網(wǎng)路不只是傳輸有線電視還傳輸了數(shù)據(jù)業(yè)務(wù)而且用戶不斷增加,光纜全部是寄掛或借用在別人的管道和木桿搶修查找斷點(diǎn)耽誤時(shí)間,不能及時(shí)修復(fù),由其晚上對(duì)運(yùn)行維修帶來很大困難,今年計(jì)劃建設(shè)好主干線的環(huán)路(列如:師機(jī)房至104團(tuán),104團(tuán)至西山等)和網(wǎng)管系統(tǒng),做好網(wǎng)絡(luò)運(yùn)行質(zhì)量。

      11、積極配合工程部做好城郊主干網(wǎng)、本地傳輸網(wǎng)、及弱點(diǎn)管道和各團(tuán)場(chǎng)分機(jī)房建設(shè),竣工驗(yàn)收工作及維護(hù)等其他工作任務(wù)。

      12、落實(shí)運(yùn)維部的各項(xiàng)管理制度,明確目標(biāo)管理,理順工作流程,為了更好地為用戶服務(wù),從而提高用戶滿意度建立良好的天娛傳媒口碑。

      第三篇:逃離故障的十條運(yùn)維工作經(jīng)驗(yàn)總結(jié)

      逃離故障的十條運(yùn)維工作經(jīng)驗(yàn)總結(jié)

      故障、于 DBA、于 運(yùn)維人員 都是 心中永遠(yuǎn)的痛、而避免故障的原則卻是殊途同歸

      現(xiàn)列如下、與君共勉

      佛說:每次創(chuàng)傷、都是一次成熟、這便是運(yùn)維人員的真實(shí)寫照從某種意義上講、運(yùn)維是一門經(jīng)驗(yàn)的學(xué)科、是一門試錯(cuò)的學(xué)科

      沒有做過的東西、總是會(huì)給你不期而遇的痛擊

      請(qǐng)保護(hù)現(xiàn)場(chǎng)、讓 變更 有回頭的機(jī)會(huì)

      ㈡ 對(duì)破壞性的操作謹(jǐn)慎小心

      什么是破壞性的操作哩?

      比如:

      對(duì) Oracle 而言:truncate table_name、delete table_name、drop table_name

      這些語句執(zhí)行起來輕松簡(jiǎn)單也愜意極了、但記住!即便數(shù)據(jù)可被回滾、代價(jià)也是非常大!

      對(duì) Linux 而言:rm-r 所有當(dāng)前及其子目錄的所有數(shù)據(jù)都將被變更要能回滾、先在同樣的環(huán)境測(cè)試過

      刪除

      經(jīng)歷過這種故障的人、大多會(huì)給 rm 上個(gè)別名

      alias rm='rm-i'

      同理、cp 和 mv 也可以有同樣的選項(xiàng):

      alias cp='cp-i'

      alias mv='mv-i'

      在操作之前、先理清你所在的是主庫、備庫?當(dāng)前目錄?哪個(gè) schema?session?時(shí)間?

      比如:

      對(duì) Oracle 來講:

      [plain] view plaincopyprint?

      1.idle> set sqlprompt 'RAC-node1-primary@10g>>'

      2.RAC-node1-primary@10g>>

      設(shè)置好命令提示

      當(dāng)然、你也可以在 glogin.sql 里面設(shè)置

      對(duì)于 Linux 而言、bash 環(huán)境的提醒可設(shè)置 PS1 來知道當(dāng)前目錄、登陸用戶名和主機(jī)信息等

      對(duì) PS1 更多理解、請(qǐng)見:man PS

      1㈣ 備份并驗(yàn)證備份的有效性

      人非圣賢、豈能無過?是機(jī)器總有計(jì)劃內(nèi)或計(jì)劃外崩潰的一天怎么辦?備份?。?/p>

      備份的學(xué)問很大、按照不同的維度可以分:冷備和熱備;實(shí)時(shí)和非實(shí)時(shí);物理和邏輯

      OLTP 7*24 在線業(yè)務(wù)、DB 就需要有實(shí)時(shí)熱備

      這樣就可以了嗎?

      如果開發(fā)人員的一個(gè)不帶任何條件的 delete 誤刪所有數(shù)據(jù)所以、此時(shí)你除了實(shí)時(shí)、還需要有非實(shí)時(shí)的備份、把 DB 從邏輯錯(cuò)誤中恢復(fù)出來

      備份有了、可以高忱無憂了嗎?

      不行!尚須驗(yàn)證備份的有效性

      一個(gè)總有那么幾次、備份無法保證 100% 恢復(fù)

      簡(jiǎn)單的驗(yàn)證就是找個(gè)空庫、恢復(fù)出來

      ㈤ 對(duì)生產(chǎn)環(huán)境永保敬畏之心

      會(huì)計(jì)人員在從業(yè)之前、都有個(gè)職業(yè)操守的訓(xùn)練

      同理、這也應(yīng)該是運(yùn)維人員進(jìn)入行業(yè)首先需要具備的素養(yǎng)比如:

      于 Oracle 而言、你可以跑一個(gè) RDA 巡檢 DB 的健康狀況于 Linux 而言、是否有 password aging、隔離外網(wǎng)等

      ㈥ 交接和休假最容易出故障、變更請(qǐng)謹(jǐn)慎

      接手別人的工作要一而再,再而三的確認(rèn)變更方案。請(qǐng)教人并不見得就是能力不行的表現(xiàn)

      休假前最好各種可以做好的事情,最好能夠準(zhǔn)備一份文檔,指明在什么情況下怎么做和聯(lián)系哪些人

      在別人放假的時(shí)候接手工作,“能拖則拖”,實(shí)在需要執(zhí)行:必須不厭其煩的跟原運(yùn)維者確認(rèn)各個(gè)操作細(xì)節(jié)

      ㈦ 搭建報(bào)警、及時(shí)獲取出錯(cuò)信息;搭建性能監(jiān)控、預(yù)測(cè)趨勢(shì)

      運(yùn)維人員賴于生存的工具就是 報(bào)警和監(jiān)控

      報(bào)警可以讓你及時(shí)知道系統(tǒng)出現(xiàn)了什么異常、以便及時(shí)跟進(jìn)、把故障扼殺于搖籃

      監(jiān)控可以讓你了解系統(tǒng)的歷史性能信息、以歷為鑒、可以知興替嘛、早做優(yōu)化

      報(bào)警和優(yōu)化是衣寬帶水的好兄弟、相鋪相成、互相促進(jìn)

      ㈧ 自動(dòng)卻換需謹(jǐn)慎

      比如、Oracle 存儲(chǔ)級(jí)的HA方案:Data Guard

      主庫提交了一筆訂單、結(jié)果發(fā)生了 switchover、這筆訂單沒有同步到備庫

      那么、賣家損失了一個(gè)銷售單、對(duì)客戶、對(duì)公司都是損失

      ㈨ 仔細(xì)一點(diǎn),偏執(zhí)一點(diǎn),檢查,檢查,再檢查

      有這么一個(gè)人:

      ① 他在做一個(gè)變更的時(shí)候,會(huì)先提前一兩周發(fā)送郵件并電話手機(jī)通知相關(guān)人

      ② 在測(cè)試機(jī)上寫好腳本,召集大家 review 操作步驟和腳本③ 測(cè)試完成以后拷貝到生產(chǎn)環(huán)境

      ④ 登錄對(duì)應(yīng)機(jī)器,“打開,關(guān)閉,打開,關(guān)閉”該腳本

      ⑤ 跟相關(guān)人員再次確認(rèn)執(zhí)行的操作,順序,時(shí)間點(diǎn),可能的影響和回滾是否都準(zhǔn)備好了

      ⑥ 執(zhí)行前還要退出這個(gè)機(jī)器,然后再登錄進(jìn)去,“打開,關(guān)閉”腳本

      ⑦ 最后才在后臺(tái)運(yùn)行腳本,同時(shí)在另外一個(gè)窗口登錄著,隨時(shí)ps和查看結(jié)果輸出

      期間姿勢(shì)端正,呼吸急促而均勻,眼神凝重。操作的人不覺得累,倒是一邊學(xué)習(xí)的人很累

      ㈩ 簡(jiǎn)單即是美

      這有點(diǎn)禪的意境、和 GNU/Linux 的思想不謀而合我們總是面臨各種誘惑:

      新的系統(tǒng)架構(gòu),新的更智能的命令和工具,最新的硬件平臺(tái),功能更全的HA軟件...等

      你可以在線下安裝,測(cè)試,怎么搞都行。但是如果想要在生產(chǎn)環(huán)境下使用起來、請(qǐng)三思!

      能夠使用系統(tǒng)內(nèi)置命令的話,就不用考慮其他要專門下載安裝的軟件了

      腳本本身就能完成的功能,就沒有必要專門找一個(gè)功能豐富的軟件來做

      linux本身自帶的字符界面比那些復(fù)雜的圖形界面要簡(jiǎn)潔方便............

      第四篇:Linux運(yùn)維經(jīng)驗(yàn)總結(jié)

      Linux運(yùn)維經(jīng)驗(yàn)總結(jié)

      一、線上操作規(guī)范

      1、測(cè)試使用

      當(dāng)初學(xué)習(xí)Linux的使用,從基礎(chǔ)到服務(wù)到集群,都是在虛擬機(jī)做的,雖然老師告訴我們跟真機(jī)沒有什么差別,可是對(duì)真實(shí)環(huán)境的渴望日漸上升,不過虛擬機(jī)的各種快照卻讓我們養(yǎng)成了各種手賤的習(xí)慣,以致于拿到服務(wù)器操作權(quán)限時(shí)候,就迫不及待的想去試試,記得上班第一天,老大把root密碼交給我,由于只能使用putty,我就想使用xshell,于是悄悄登錄服務(wù)器嘗試改為xshell+密鑰登錄,因?yàn)闆]有測(cè)試,也沒有留一個(gè)ssh連接,所有重啟sshd服務(wù)器之后,自己就被擋在服務(wù)器之外了,幸好當(dāng)時(shí)我備份sshd_config文件,后來讓機(jī)房人員cp過去就可以了,幸虧這是一家小公司,不然直接就被干了……慶幸當(dāng)年運(yùn)氣比較好。

      第二個(gè)例子是關(guān)于文件同步的,大家都知道rsync同步很快,可是他刪除文件的速度大大超過了rm-rf,在rsync中有一個(gè)命令是,以某目錄為準(zhǔn)同步某文件(如果第一個(gè)目錄是空的,那么結(jié)果可想而知),源目錄(有數(shù)據(jù)的)就會(huì)被刪除,當(dāng)初我就是因?yàn)檎`操作,以及缺乏測(cè)試,就目錄寫反了,關(guān)鍵是沒有備份……生產(chǎn)環(huán)境數(shù)據(jù)被刪了沒備份,大家自己想后果吧,其重要性不言而喻。/ 8

      2、Enter前再三確認(rèn)

      關(guān)于rm-rf / var 這種錯(cuò)誤,我相信手快的人,或者網(wǎng)速比較慢的時(shí)候,出現(xiàn)的幾率相當(dāng)大,當(dāng)你發(fā)現(xiàn)執(zhí)行完之后,你的心至少是涼了半截。

      大家可能會(huì)說,我按了這么多次都沒出過錯(cuò),不用怕,我只想說當(dāng)出現(xiàn)一次你就明白了,不要以為那些運(yùn)維事故都是在別人身上,如果你不注意,下一個(gè)就是你。

      3、切忌多人操作

      我在的上一家公司,運(yùn)維管理相當(dāng)混亂,舉一個(gè)最典型的例子吧,離職好幾任的運(yùn)維都有服務(wù)器root密碼。

      通常我們運(yùn)維接到任務(wù),都會(huì)進(jìn)行簡(jiǎn)單查看如果無法解決,就請(qǐng)求他人幫忙,可是當(dāng)問題焦頭爛額的時(shí)候,客服主管(懂點(diǎn)linux),網(wǎng)管,你上司一起調(diào)試一個(gè)服務(wù)器,當(dāng)你各種百度,各種對(duì)照,完了發(fā)現(xiàn),你的服務(wù)器配置文件,跟上次你修改不一樣了,然后再改回來,然后再谷歌,興沖沖發(fā)現(xiàn)問題,解決了,別人卻告訴你,他也解決了,修改的是不同的參數(shù)……這個(gè),我就真不知道哪個(gè)是問題真正的原因了,當(dāng)然這還是好的,問題解決了,皆大歡喜,可是你遇到過你剛修改的文件,測(cè)試無效,再去修改發(fā)現(xiàn)文件又被修改的時(shí)候呢?真的很惱火,切忌多人操作。

      4、先備份后操作

      養(yǎng)成一個(gè)習(xí)慣,要修改數(shù)據(jù)時(shí),先備份,比如.conf的配置文件。另外,修改配置文件時(shí),建議注釋原選項(xiàng),然后再?gòu)?fù)制,修改 / 8

      再者說,如果第一個(gè)例子中,有數(shù)據(jù)庫備份,那rsync的誤操作不久沒事了吧,所以說丟數(shù)據(jù)庫非一朝一夕,隨便備份一個(gè)就不用那么慘。

      二、涉及數(shù)據(jù)

      1、慎用rm-rf 網(wǎng)上的例子很多,各種rm-rf /,各種刪除主數(shù)據(jù)庫,各種運(yùn)維事故……一點(diǎn)小失誤就會(huì)造成很大的損失。如果真需要?jiǎng)h除,一定要謹(jǐn)慎。

      2、備份大于一切

      本來上面都有各種關(guān)于備份,但是我想把它劃分在數(shù)據(jù)類再次強(qiáng)調(diào),備份非常之重要哇,我記得我的老師說過一句話,涉及到數(shù)據(jù)何種的謹(jǐn)慎都不為過,我就職的公司有做第三方支付網(wǎng)站和網(wǎng)貸平臺(tái)的,第三方支付是每?jī)蓚€(gè)小時(shí)完全備份一次,網(wǎng)貸平臺(tái)是每20分鐘備份一次,我不多說了,大家自己斟酌吧

      3、穩(wěn)定大于一切

      其實(shí)不止是數(shù)據(jù),在整個(gè)服務(wù)器環(huán)境,都是穩(wěn)定大于一切,不求最快,但求最穩(wěn)定,求可用性,所以未經(jīng)測(cè)試,不要再服務(wù)器使用新的軟件,比如nginx+php-fpm,生產(chǎn)環(huán)境中php各種掛啊,重啟下就好了,或者換apache就好了。

      4、保密大于一切

      現(xiàn)在各種艷照門漫天飛,各種路由器后門,所以說,涉及到數(shù)據(jù),不保密是不行的。/ 8

      三、涉及安全

      1、ssh 更改默認(rèn)端口(當(dāng)然如果專業(yè)要黑你,掃描下就出來了),禁止root登錄,使用普通用戶+key認(rèn)證+sudo規(guī)則+ip地址+用戶限制,使用hostdeny類似的防爆里破解軟件(超過幾次嘗試直接拉黑),篩選/etc/passwd中l(wèi)ogin的用戶。

      2、防火墻

      防火墻生產(chǎn)環(huán)境一定要開,并且要遵循最小原則,drop所有,然后放行需要的服務(wù)端口。

      3、精細(xì)權(quán)限和控制粒度

      能使用普通用戶啟動(dòng)的服務(wù)堅(jiān)決不使用root,把各種服務(wù)權(quán)限控制到最低,控制粒度要精細(xì)。

      4、入侵檢測(cè)和日志監(jiān)控

      使用第三方軟件,時(shí)刻檢測(cè)系統(tǒng)關(guān)鍵文件以及各種服務(wù)配置文件的改動(dòng),比如,/etc/passwd,/etc/my.cnf,/etc/httpd/con/httpd.con等;使用集中化的日志監(jiān)控體系,監(jiān)控/var/log/secure,/etc/log/message,ftp上傳下載文件等報(bào)警錯(cuò)誤日志;另外針對(duì)端口掃描,也可以使用一些第三方軟件,發(fā)現(xiàn)被掃描就直接拉入host.deny。這些信息對(duì)于系統(tǒng)被入侵后排錯(cuò)很有幫助。有人說過,一個(gè)公司在安全投入的成本跟他被安全攻擊損失的成本成正比,安全是一個(gè)很大的話題,也是一個(gè)很基礎(chǔ)的工作,把基礎(chǔ)做好了,就能相當(dāng)?shù)奶岣呦到y(tǒng)安全性,其他的就是安全高手做的了 / 8

      四、日常監(jiān)控

      1、系統(tǒng)運(yùn)行監(jiān)控

      好多人踏入運(yùn)維都是從監(jiān)控做起,大的公司一般都有專業(yè)24小時(shí)監(jiān)控運(yùn)維。系統(tǒng)運(yùn)行監(jiān)控一般包括硬件占用率常見的有,內(nèi)存,硬盤,cpu,網(wǎng)卡,os包括登錄監(jiān)控,系統(tǒng)關(guān)鍵文件監(jiān)控定期的監(jiān)控可以預(yù)測(cè)出硬件損壞的概率,并且給調(diào)優(yōu)帶來很實(shí)用的功能

      2、服務(wù)運(yùn)行監(jiān)控

      服務(wù)監(jiān)控一般就是各種應(yīng)用,web,db,lvs等,這一般都是監(jiān)控一些指標(biāo)在系統(tǒng)出現(xiàn)性能瓶頸的時(shí)候就能很快發(fā)現(xiàn)并解決。

      3、日志監(jiān)控

      這里的日志監(jiān)控跟安全的日志監(jiān)控類似,但這里一般都是硬件,os,應(yīng)用程序的報(bào)錯(cuò)和警報(bào)信息監(jiān)控在系統(tǒng)穩(wěn)定運(yùn)行的時(shí)候確實(shí)沒啥用,但是一旦出現(xiàn)問題,你又沒做監(jiān)控,就會(huì)很被動(dòng)了

      五、性能調(diào)優(yōu)

      1、深入了解運(yùn)行機(jī)制

      其實(shí)按一年多的運(yùn)維經(jīng)驗(yàn)來說,談?wù){(diào)優(yōu)根本就是紙上談兵,但是我只是想簡(jiǎn)單總結(jié)下,如果有更深入的了解,我會(huì)更新。在對(duì)軟件進(jìn)行優(yōu)化之前,比如要深入了解一個(gè)軟件的運(yùn)行機(jī)制,比如nginx和apache,大家都說nginx快,那就必須知道nginx為什么快,利用什么原理,處理請(qǐng)求比apache,并且要能跟別人用淺顯易懂的話說出/ 8

      來,必要的時(shí)候還要能看懂源代碼,否則一切以參數(shù)為調(diào)優(yōu)對(duì)象的文檔都是瞎談。

      2、調(diào)優(yōu)框架以及先后

      熟悉了底層運(yùn)行機(jī)制,就要有調(diào)優(yōu)的框架和先后順序,比如數(shù)據(jù)庫出現(xiàn)瓶頸,好多人直接就去更改數(shù)據(jù)庫的配置文件,我的建議是,先根據(jù)瓶頸去分析,查看日志,寫出來調(diào)優(yōu)方向,然后再入手,并且數(shù)據(jù)庫服務(wù)器調(diào)優(yōu)應(yīng)該是最后一步,最先的應(yīng)該是硬件和操作系統(tǒng),現(xiàn)在的數(shù)據(jù)庫服務(wù)器都是在各種測(cè)試之后才會(huì)發(fā)布的 適用于所有操作系統(tǒng),不應(yīng)該先從他入手。

      3、每次只調(diào)一個(gè)參數(shù)

      每次只調(diào)一個(gè)參數(shù),這個(gè)相比大家都了解,調(diào)的多了,你就自己就迷糊了。

      4、基準(zhǔn)測(cè)試

      判斷調(diào)優(yōu)是否有用,和測(cè)試一個(gè)新版本軟件的穩(wěn)定性和性能等方面,就必須要基準(zhǔn)測(cè)試了,測(cè)試要涉及很多因素,測(cè)試是否接近業(yè)務(wù)真實(shí)需求這要看測(cè)試人的經(jīng)驗(yàn)了,相關(guān)資料大家可以參考《高性能mysql》第三版相當(dāng)?shù)暮?,我的老師曾說過,沒有放之四海皆準(zhǔn)的參數(shù),任何參數(shù)更改任何調(diào)優(yōu)都必須符合業(yè)務(wù)場(chǎng)景,所以不要再谷歌什么什么調(diào)優(yōu)了,對(duì)你的提升和業(yè)務(wù)環(huán)境的改善沒有長(zhǎng)久作用。/ 8

      六、運(yùn)維心態(tài)

      1、控制心態(tài)

      很多rm-rf /data都在下班的前幾分鐘,都在煩躁的高峰,那么你還不打算控制下你的心態(tài)么,有人說了,煩躁也要上班,可是你可以在煩躁的時(shí)候盡量避免處理關(guān)鍵數(shù)據(jù)環(huán)境越是有壓力,越要冷靜,不然會(huì)損失更多。

      大多人都有rm-rf /data/mysql的經(jīng)歷,發(fā)現(xiàn)刪除之后,那種心情你可以想象一下,可是如果沒有備份,你急又有什么用,一般這種情況下,你就要冷靜想下最壞打算了,對(duì)于mysql來說,刪除了物理文件,一部分表還會(huì)存在內(nèi)存中,所以斷開業(yè)務(wù),但是不要關(guān)閉mysql數(shù)據(jù)庫,這對(duì)恢復(fù)很有幫助,并使用dd復(fù)制硬盤,然后你再進(jìn)行恢復(fù),當(dāng)然了大多時(shí)候你就只能找數(shù)據(jù)恢復(fù)公司了。

      試想一下,數(shù)據(jù)被刪了,你各種操作,關(guān)閉數(shù)據(jù)庫,然后修復(fù),不但有可能覆蓋文件,還找不到內(nèi)存中的表了。

      2、對(duì)數(shù)據(jù)負(fù)責(zé)

      生產(chǎn)環(huán)境不是兒戲,數(shù)據(jù)庫也不是兒戲,一定要對(duì)數(shù)據(jù)負(fù)責(zé)。不備份的后果是非常嚴(yán)重的。

      3、追根究底

      很多運(yùn)維人員比較忙,遇到問題解決就不會(huì)再管了,記得去年一個(gè)客戶的網(wǎng)站老是打不開,經(jīng)過php代碼報(bào)錯(cuò)發(fā)現(xiàn)是session和whos_online損壞,前任運(yùn)維是通過repair修復(fù)的,我就也這樣修復(fù)了,但是過了幾個(gè)小時(shí),又出現(xiàn)了反復(fù)三四次之后,我就去谷歌數(shù)/ 8

      據(jù)庫表莫名損壞原因:一是myisam的bug,二是mysqlbug,三是mysql在寫入過程中被kill,最后發(fā)現(xiàn)是內(nèi)存不夠用,導(dǎo)致OOM kill了mysqld進(jìn)程并且沒有swap分區(qū),后臺(tái)監(jiān)控內(nèi)存是夠用的,最后升級(jí)物理內(nèi)存解決。

      4、測(cè)試和生產(chǎn)環(huán)境

      在重要操作之前一定要看自己所在的機(jī)器,盡量避免多開窗口。/ 8

      第五篇:運(yùn)維故障處理思路

      事件/故障處理應(yīng)該要有什么思路 導(dǎo)讀:

      在講解事件、故障處理思路前,我先講一個(gè)故障場(chǎng)景(以呼叫中心系統(tǒng)作為一例子):

      業(yè)務(wù)人員反映呼叫中心系統(tǒng)運(yùn)行緩慢,部份電話在自助語言環(huán)節(jié)系統(tǒng)處理超時(shí),話務(wù)轉(zhuǎn)人工座席,人工座席出現(xiàn)爆線情況。

      運(yùn)維人員開始忙活了,查資源使用情況、查服務(wù)是否正常、查日志是否報(bào)錯(cuò)、查交易量還有沒有??時(shí)間不知不覺的在敲鍵盤、敲鍵盤、敲鍵盤中過去,但是原因還未定位。

      經(jīng)理過來了解情況:“系統(tǒng)恢復(fù)了嗎?”、“故障影響是什么?”、“交易中斷了嗎?”??

      運(yùn)維人員趕緊敲鍵盤,寫sql,看交易量;敲鍵盤,寫命令,看系統(tǒng)資源、情況??

      最終,定位到問題原因是其中一個(gè)功能沒有控制返回?cái)?shù)量,導(dǎo)致內(nèi)存泄露。針對(duì)這個(gè)故障,業(yè)務(wù)希望運(yùn)維能否更快的解決故障的恢復(fù),經(jīng)理希望制定優(yōu)化呼叫中心故障處理流程,做了以下幾件事:

      1.優(yōu)先故障處理過程的時(shí)間——”能通過鼠標(biāo)完成的工作,不要用鍵盤“ 2.提前發(fā)現(xiàn)故障,加強(qiáng)監(jiān)控——“技術(shù)早于業(yè)務(wù)發(fā)現(xiàn)問題,監(jiān)控不僅是報(bào)警,還要協(xié)助故障定位”

      3.完善故障應(yīng)急方案——“應(yīng)急方案是最新的、準(zhǔn)確的、簡(jiǎn)單明了的” 4.長(zhǎng)遠(yuǎn)目標(biāo):故障自愈——”能固化的操作自動(dòng)化,能機(jī)器做的讓機(jī)器做“ 下面將從故障常見的處理方法開始介紹,再?gòu)墓收锨暗臏?zhǔn)備工作(完善監(jiān)控、制定應(yīng)急方案等方式)來解決經(jīng)理提出的問題,并提出未來解決故障的想法。

      1、常見的方法:

      1)確定故障現(xiàn)象并初判問題影響

      在處理故障前,運(yùn)維人員首先要知道故障現(xiàn)象,故障現(xiàn)象直接決定故障應(yīng)急方案的制定,這依賴于運(yùn)維人員需要對(duì)應(yīng)用系統(tǒng)的整體功能有一定的熟悉程度。確認(rèn)了故障現(xiàn)象后,才能指導(dǎo)運(yùn)維人員初判斷故障影響。2)應(yīng)急恢復(fù)

      運(yùn)維最基本的指標(biāo)就是系統(tǒng)可用性,應(yīng)急恢復(fù)的時(shí)效性是系統(tǒng)可用性的關(guān)鍵指標(biāo)。

      有了上述故障現(xiàn)象與影響的判斷后,就可以制定故障應(yīng)急操作,故障應(yīng)急有很多,比如:

      ? ? ? ? ? ? ? 服務(wù)整體性能下降或異常,可以考慮重啟服務(wù); 應(yīng)用做過變更,可以考慮是否需要回切變更; 資源不足,可以考慮應(yīng)急擴(kuò)容;

      應(yīng)用性能問題,可以考慮調(diào)整應(yīng)用參數(shù)、日志參數(shù); 數(shù)據(jù)庫繁忙,可以考慮通過數(shù)據(jù)庫快照分析,優(yōu)化SQL; 應(yīng)用功能設(shè)計(jì)有誤,可以考慮緊急關(guān)閉功能菜單; 還有很多??

      另外,需要補(bǔ)充的是,在故障應(yīng)急前,在有條件的情況需要保存當(dāng)前系統(tǒng)場(chǎng)景,比如在殺進(jìn)程前,可以先抓個(gè)CORE文件或數(shù)據(jù)庫快照文件。

      3)快速定位故障原因

      ? 是否為偶發(fā)性、是否可重現(xiàn)

      故障現(xiàn)象是否可以重現(xiàn),對(duì)于快速解決問題很重要,能重現(xiàn)說明總會(huì)有辦法或工具幫助我們定位到問題原因,而且能重現(xiàn)的故障往往可能是服務(wù)異常、變更等工作導(dǎo)致的問題。

      但,如果故障是偶發(fā)性的,是有極小概率出現(xiàn)的,則比較難排查,這依賴于系統(tǒng)是否有足夠的故障期間的現(xiàn)場(chǎng)信息來決定是否可以定位到總是原因。

      ? 是否進(jìn)行過相關(guān)變更

      大部份故障是由于變更導(dǎo)致,確定故障現(xiàn)象后,如果有應(yīng)的變更,有助于從變更角度出現(xiàn)分析是否是變更引起,進(jìn)而快速定位故障并準(zhǔn)備好回切等應(yīng)急方案。

      ? 是否可縮小范圍

      一方面應(yīng)用系統(tǒng)提倡解耦,一支交易會(huì)流經(jīng)不同的應(yīng)用系統(tǒng)及模塊;另一方面,故障可能由于應(yīng)用、系統(tǒng)軟件、硬件、網(wǎng)絡(luò)等環(huán)節(jié)的問題。在排查故障原因時(shí)應(yīng)該避免全面性的排查,建議先把問題范圍縮小到一定程序后再開始協(xié)調(diào)關(guān)聯(lián)團(tuán)隊(duì)排查。

      ? 關(guān)聯(lián)方配合分析問題 與第(3)點(diǎn)避免同時(shí)各關(guān)聯(lián)團(tuán)隊(duì)同時(shí)無頭緒的排查的同時(shí),對(duì)于牽頭方在縮小范圍后需要開放的態(tài)度去請(qǐng)求關(guān)聯(lián)方配合定位,而對(duì)于關(guān)聯(lián)方則需要有積極配合的工作態(tài)度。

      ? 是否有足夠的日志

      定位故障原因,最常用的方法就是分析應(yīng)用日志,對(duì)運(yùn)維人員不僅需要知道業(yè)務(wù)功能對(duì)應(yīng)哪個(gè)服務(wù)進(jìn)程,還要知道這個(gè)服務(wù)進(jìn)程對(duì)應(yīng)的哪些應(yīng)用日志,并具備一些簡(jiǎn)單的應(yīng)用日志異常錯(cuò)誤的判斷能力。

      ? 是否有core或dump等文件

      故障期間的系統(tǒng)現(xiàn)場(chǎng)很重要,這個(gè)在故障應(yīng)急前建議在有條件的情況下留下系統(tǒng)現(xiàn)場(chǎng)的文件,比如COREDUMP,或TRACE采集信息等,備份好一些可能被覆蓋的日志等。

      上述是一般性的故障常見的方法,在重大故障或多方處理的故障出現(xiàn)時(shí),往往小范圍的排查不利于快速解決,需要啟動(dòng)緊急處理的流程,建議可以考慮以下溝通:

      ? ? ? ? ? ? 召集相關(guān)人員 描述故障現(xiàn)狀

      說明正常應(yīng)用邏輯流程 陳述變更

      排查進(jìn)展,展示信息 領(lǐng)導(dǎo)決策

      2、完善監(jiān)控

      1)從監(jiān)控可視化上完善

      完善的監(jiān)控策略需要有統(tǒng)一的可視化操作界面,在制定完善的監(jiān)控策略后,故障處理人員需要能夠快速的看到相應(yīng)的運(yùn)行數(shù)據(jù),比如:能夠看到一段時(shí)間的趨勢(shì)、故障期間的數(shù)據(jù)表現(xiàn)、性能分析的情況等等數(shù)據(jù),且這些數(shù)據(jù)可以提前制定好策略直接推出分析結(jié)果給故障處理人員,這樣就大大提高了故障的處理效率,以呼叫中心系統(tǒng)為例,需要提前配置好以下實(shí)時(shí)交易數(shù)據(jù),以便故障定位:

      -交易性能數(shù)據(jù):平均交易耗時(shí)、系統(tǒng)內(nèi)部模塊交易耗時(shí)(IVR交易耗時(shí)、接口總線交易耗時(shí))、關(guān)聯(lián)系統(tǒng)交易耗時(shí)(核心交易耗時(shí)、工單系統(tǒng)交易耗時(shí)等)-重要交易指標(biāo)數(shù)據(jù):交易量、IVR交易量、話務(wù)量、座席通話率、核心交易筆數(shù)、工單等系統(tǒng)交易量

      -交易異常情況數(shù)據(jù):交易成功率、失敗率、錯(cuò)誤碼最多交易-按服務(wù)器分析交易數(shù)據(jù):按server統(tǒng)計(jì)各服務(wù)交易處理筆數(shù),交易總耗時(shí) 有了以上交易數(shù)據(jù),并通過監(jiān)控按一定頻率統(tǒng)計(jì),運(yùn)維人員在出現(xiàn)故障時(shí),通過鼠標(biāo)即點(diǎn)擊即可看到故障什么時(shí)候開始,是系統(tǒng)內(nèi)部有問題還是關(guān)聯(lián)系統(tǒng)有問題,最突出的交易是哪一支,各服務(wù)器交易量是否均衡等情況。

      2)從監(jiān)控面上完善

      監(jiān)控最基本的工作就是實(shí)現(xiàn)對(duì)負(fù)載均衡設(shè)備、網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)設(shè)備、安全設(shè)備、數(shù)據(jù)庫、中間件及應(yīng)用軟件等IT資源的全面監(jiān)控管理。在應(yīng)用軟件類的監(jiān)控工作中,不僅需要有服務(wù)進(jìn)程、端口等監(jiān)控,還需要有業(yè)務(wù)、交易層的監(jiān)控。

      全面性的應(yīng)用監(jiān)控可以讓故障提前預(yù)警,并保存了影響應(yīng)用運(yùn)行環(huán)境的數(shù)據(jù),以縮短故障處理時(shí)間。

      3)從監(jiān)控告警上完善

      完善的監(jiān)控策略需要有清晰的監(jiān)控告警提示,值班人員要以根據(jù)監(jiān)控告警即可作出簡(jiǎn)單的問題定位與應(yīng)急處理方案。比如類似以下的監(jiān)控短信:

      22時(shí),【理財(cái)應(yīng)用系統(tǒng)】中【應(yīng)用服務(wù)器LC_APPsvrA 10.2.111.111】的【前置應(yīng)用模塊】出現(xiàn)【應(yīng)用端口:9080】不存在,該端口作用【提供理財(cái)應(yīng)用處理(負(fù)載均衡部署)】,原因可能為【SERVER1服務(wù)異常停止】,監(jiān)控系統(tǒng)己進(jìn)行以下應(yīng)急處理【自動(dòng)執(zhí)行端口進(jìn)程啟動(dòng)】,該事件緊急程度【高】。管理員可以通過短信內(nèi)容看到哪個(gè)系統(tǒng)、哪個(gè)應(yīng)用、哪個(gè)模塊出了什么問題,可能是什么原因,對(duì)業(yè)務(wù)有什么影響,是否需要馬上處理(比如凌晨出現(xiàn)此預(yù)警是否可以延遲到次日處理)等信息。

      4)從監(jiān)控分析上完善

      完善的監(jiān)控策略不僅需要有實(shí)時(shí)的數(shù)據(jù)告警,也要有匯總數(shù)據(jù)的分析告警,實(shí)時(shí)數(shù)據(jù)分析的告警的重要性不用多說,對(duì)于匯總分析的數(shù)據(jù)則能發(fā)現(xiàn)潛在風(fēng)險(xiǎn),同時(shí)也為分析疑難雜癥提供幫忙。

      5)從監(jiān)控主動(dòng)性上完善

      監(jiān)控不僅僅是報(bào)警,它還可以做得更多,只要我們想辦法賦予它主動(dòng)解決事件的規(guī)則,它便有為管理員處理故障的能力。

      3、應(yīng)急方案

      提前制定好故障應(yīng)急方案是很有必要的,但在日常工作過程中我們的應(yīng)急方案遇到一些問題: 1)應(yīng)急方案缺乏持續(xù)維護(hù),缺乏演練,信息不及時(shí)、不準(zhǔn)確; 2)應(yīng)急方案過于追求大而全,導(dǎo)致不利于閱讀與使用; 3)應(yīng)急方案形式大于實(shí)際使用效果,方案針對(duì)性不強(qiáng); 4)只關(guān)注應(yīng)急方案的內(nèi)容,但沒有關(guān)注運(yùn)維人員對(duì)方案的理解; 針對(duì)上述常見問題,我認(rèn)為應(yīng)急方案需要做到以下幾點(diǎn):

      1)內(nèi)容精&簡(jiǎn)

      很多人可能會(huì)認(rèn)為故障出現(xiàn)的形式各種各樣,所以應(yīng)急方案需要涉及到方方面面。但實(shí)際的故障處理過程中,我們可以發(fā)現(xiàn)其實(shí)我們的應(yīng)急措施往往重復(fù)使用幾個(gè)常用的步驟,所以我認(rèn)為應(yīng)急方案要有重點(diǎn),如果一個(gè)應(yīng)急方案可以應(yīng)對(duì)平時(shí)故障處理80%的場(chǎng)景,那這個(gè)應(yīng)急手冊(cè)應(yīng)該是合格的。過于追求影響應(yīng)用系統(tǒng)方方面面的內(nèi)容,會(huì)導(dǎo)致這個(gè)方案可讀性變差,最終變更一個(gè)應(yīng)付檢查的文檔。以下是我覺得應(yīng)用系統(tǒng)應(yīng)急方案應(yīng)該有的內(nèi)容:(1)系統(tǒng)級(jí):

      能知道當(dāng)前應(yīng)用系統(tǒng)在整個(gè)交易中的角色,當(dāng)前系統(tǒng)出現(xiàn)問題或上下游出現(xiàn)問題時(shí),可以知道如何配合上下游分析問題,比如:上下游系統(tǒng)如何通訊,通訊是否有唯一的關(guān)鍵字等。

      另外,系統(tǒng)級(jí)里還涉及一些基本應(yīng)急操作,比如擴(kuò)容、系統(tǒng)及網(wǎng)絡(luò)參數(shù)調(diào)整等。(2)服務(wù)級(jí):

      能知道這個(gè)服務(wù)影響什么業(yè)務(wù),服務(wù)涉及的日志、程序、配置文件在哪里,如何檢查服務(wù)是否正常,如何重啟服務(wù),如何調(diào)整應(yīng)用級(jí)參數(shù)等。(3)交易級(jí):

      能知道如何查到某支或某類交易出現(xiàn)了問題,是大面積、局部,還是偶發(fā)性問題,能用數(shù)據(jù)說明交易影響的情況,能定位到交易報(bào)錯(cuò)的信息。這里最常用的方法就是數(shù)據(jù)庫查詢或工具的使用。

      知道最重要的交易如何檢查是否正常,重要的定時(shí)任務(wù)的應(yīng)急處理方案,比如開業(yè)、換日、對(duì)賬的時(shí)間要求及應(yīng)急措施。(4)輔助工具的使用:

      有時(shí)候,需要借助一些工具或自動(dòng)化工具輔助分析并應(yīng)急,這時(shí)需要有輔助工具如何使用的方法。(5)溝通方案:

      溝通方案涉及通訊錄,包括上下游系統(tǒng)、第三方單位、業(yè)務(wù)部門等渠道。(6)其它:

      上述5點(diǎn)內(nèi)容如何都完備,相信這個(gè)應(yīng)急手冊(cè)己可以解決80%的故障恢復(fù)工作。

      2)應(yīng)急方案是一項(xiàng)持續(xù)的工作

      有了應(yīng)急方案,如何讓運(yùn)維人員持續(xù)去更新是難點(diǎn)。我認(rèn)為要解決這個(gè)難點(diǎn),需要先讓運(yùn)維人員經(jīng)常使用這個(gè)手冊(cè)。如果一個(gè)手冊(cè)沒有場(chǎng)景可以用,那就需要管理者為運(yùn)維人員創(chuàng)造機(jī)會(huì)去使用這個(gè)手冊(cè),比如應(yīng)急演練。

      3)關(guān)注運(yùn)維人員對(duì)應(yīng)用關(guān)鍵信息的認(rèn)識(shí)

      前兩點(diǎn)關(guān)注了手冊(cè),最后一點(diǎn)我覺得有必要關(guān)注使用這個(gè)手冊(cè)的人。有些運(yùn)維人員認(rèn)為應(yīng)用運(yùn)維人員沒有能力去把應(yīng)用系統(tǒng)本身的內(nèi)容了解得很透徹,所以應(yīng)用運(yùn)維人員在故障處理過程中的地位很尷尬,運(yùn)維人員掌握操作權(quán),但卻不知道應(yīng)該操作什么。

      對(duì)此,我認(rèn)同應(yīng)用運(yùn)維人員不需要掌握應(yīng)用系統(tǒng)的業(yè)務(wù)功能,但我覺得就對(duì)應(yīng)用系統(tǒng)本身來講應(yīng)用運(yùn)維人員需要具備以下最基本的能力:(1)知道應(yīng)用系統(tǒng)這個(gè)是干什么的,基本的業(yè)務(wù)是什么;(2)知道應(yīng)用架構(gòu)部署、上下游系統(tǒng)邏輯關(guān)系;

      (3)知道應(yīng)用下的服務(wù)的作用、端口、服務(wù)級(jí)的應(yīng)急處理,日志等數(shù)據(jù)信息如何找到并簡(jiǎn)單定位。

      (4)知道應(yīng)用系統(tǒng)重要的時(shí)間點(diǎn)及任務(wù),比如開業(yè)、停業(yè)、換日、定時(shí)任務(wù)的時(shí)間點(diǎn)以及如何判斷這些任務(wù)是否正確(5)知道最重要的幾支交易的流程;(6)知道常見數(shù)據(jù)庫表結(jié)構(gòu),并能使用。

      4、智能化事件處理

      處理方法如下圖(詳細(xì)的智能化涉及監(jiān)控、規(guī)則引擎、配置工具、CMDB、應(yīng)用配置庫等模塊協(xié)同工作,具體介紹后續(xù)分析)

      下載linux服務(wù)器故障之運(yùn)維經(jīng)驗(yàn)總結(jié)word格式文檔
      下載linux服務(wù)器故障之運(yùn)維經(jīng)驗(yàn)總結(jié).doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        公司W(wǎng)eb服務(wù)器運(yùn)維方案

        服務(wù)器運(yùn)維方案(草案)為配合公司三維互聯(lián)網(wǎng)生活社區(qū)的上線工作,也為了將來更好的對(duì)服務(wù)器進(jìn)行管理維護(hù),特制定以下草案:硬件系統(tǒng)管理一、服務(wù)器運(yùn)行穩(wěn)定性 服務(wù)器在運(yùn)往托管商處......

        IT運(yùn)維手冊(cè)(故障及處理)5篇

        IT運(yùn)維手冊(cè) 第二篇 硬件篇 一計(jì)算機(jī)章 ㈤常見問題 1主機(jī) ⑴無法正常開機(jī) ①硬盤燈亮 多為顯示器或LCD排線問題,可插入系統(tǒng)引導(dǎo)盤看有無反應(yīng),若無反應(yīng),則為硬件問題,建議售后處理......

        服務(wù)器運(yùn)維工程師崗位的具體職責(zé)模板

        服務(wù)器運(yùn)維工程師崗位的具體職責(zé)模板職責(zé):1、負(fù)責(zé)日檢查工作,對(duì)收集的網(wǎng)絡(luò)運(yùn)行、機(jī)房相關(guān)設(shè)備運(yùn)行、設(shè)備系統(tǒng)運(yùn)行等數(shù)據(jù)進(jìn)行匯總分析,以日?qǐng)?bào)形式提交。2、負(fù)責(zé)對(duì)集控和電廠突發(fā)......

        污水處理設(shè)備篇:一體化設(shè)備運(yùn)維及故障檢查范文合集

        污水處理設(shè)備篇:一體化設(shè)備運(yùn)維及故障檢查 隨著我國(guó)對(duì)外開放的不斷深入,我國(guó)旅游業(yè)及房地產(chǎn)業(yè)蓬勃發(fā)展,高級(jí)賓館及別墅小區(qū)拔地而起,而高級(jí)賓館及別墅小區(qū)往往又遠(yuǎn)離城市污水處......

        光伏電站運(yùn)維故障成本分析

        古瑞瓦特官網(wǎng):http://004km.cn/ 光伏電站運(yùn)維故障成本分析 眾所周知,光伏電站的投資是業(yè)主主要考慮的一個(gè)因素,而往常業(yè)主一般會(huì)比較重視組件、支架、逆變器、箱變等......

        電力輸配電線路的運(yùn)維故障排除探討

        電力輸配電線路的運(yùn)維故障排除探討 摘要:隨著生活水平的提高和社會(huì)經(jīng)濟(jì)的快速發(fā)展,生產(chǎn)生活對(duì)于電能的要求在不斷增加,同時(shí)對(duì)于電力企業(yè)的要求也更加苛刻,這就使得保證供電質(zhì)量......

        服務(wù)器托管經(jīng)驗(yàn)總結(jié)(大全五篇)

        服務(wù)器托管經(jīng)驗(yàn)總結(jié) 關(guān)于網(wǎng)站服務(wù)器的介紹,站長(zhǎng)們多少會(huì)有所了解,其重要性也直接影響著網(wǎng)站的正常運(yùn)營(yíng),所以說,選擇服務(wù)器也是比較重要的,那么面對(duì)市場(chǎng)多如牛毛的服務(wù)器托管商家,......

        大檢修之運(yùn)維一體化檢修模式探討

        大檢修之運(yùn)維一體化檢修模式探討 摘要:本文首先從一次誤跳閘事件出發(fā),分析了專業(yè)分工負(fù)責(zé)制檢修模式的弊端。然后結(jié)合電力發(fā)展趨勢(shì),闡述了推進(jìn)大檢修體系建設(shè),實(shí)施運(yùn)維、檢修專......