您的位置:首頁(yè) > 業(yè)內(nèi)資訊 > 從“支付寶故障”說(shuō)起:我們的互聯(lián)網(wǎng)為何如此脆弱?

從“支付寶故障”說(shuō)起:我們的互聯(lián)網(wǎng)為何如此脆弱?

來(lái)源:互聯(lián)網(wǎng)運(yùn)維雜談 | 時(shí)間:2015-06-18 11:52:21 | 閱讀:149 |  標(biāo)簽: 攜程 支付寶   | 分享到:

在故障的當(dāng)下,定位故障原因是大忌,這往往讓故障時(shí)長(zhǎng)變得不可控,因?yàn)闀?huì)直接影響MTTR(平均修復(fù)時(shí)間),影響用戶(hù)的業(yè)務(wù)使用。不過(guò)有人會(huì)有疑問(wèn),不知道故障原因怎么知道如何解決?從經(jīng)驗(yàn)來(lái)看,你一定有一些簡(jiǎn)單粗暴的原則去隔離故障,比如說(shuō)服務(wù)器重啟,鏈路禁用,DNS切換等等。

4、故障發(fā)生后,仔細(xì)的復(fù)盤(pán)

每一次故障發(fā)生后,運(yùn)維人需要牽頭去復(fù)盤(pán)故障,剛剛說(shuō)了我們恢復(fù)是第一要?jiǎng)?wù),所以故障的根本原因我們可能還不知道,此時(shí)就需要運(yùn)維、測(cè)試和研發(fā)一起仔細(xì)的去看整個(gè)的故障過(guò)程,看看到底哪兒有什么問(wèn)題?基本上也是從剛才說(shuō)的四個(gè)方面來(lái)評(píng)估。不斷的審視我們運(yùn)維的能力和IT的能力,說(shuō)“故障是運(yùn)維最好的老師”的原因也在于此,它能夠不斷驅(qū)使我們走向更高的成熟度。

運(yùn)維是復(fù)盤(pán)的首要負(fù)責(zé)人,復(fù)盤(pán)是為了找到根因(Root Cause),根因和故障現(xiàn)象不同,舉個(gè)例子,故障現(xiàn)象是交換機(jī)故障,根因是因?yàn)榧夹g(shù)架構(gòu)沒(méi)有對(duì)交換機(jī)故障做到容錯(cuò),根因是運(yùn)維對(duì)這種故障缺乏有效的臨時(shí)應(yīng)對(duì)機(jī)制。

復(fù)盤(pán)是為了讓我們走向更好的運(yùn)維階段!

5、故障發(fā)生后,復(fù)盤(pán)措施有講究

故障復(fù)盤(pán)后,我們一定會(huì)寫(xiě)改進(jìn)措施,對(duì)于這些改進(jìn)措施,還是有些講究的,看過(guò)一些故障報(bào)告,非常的不合要求。我個(gè)人的經(jīng)驗(yàn)如下:

故障的措施必須是可落實(shí),且具體的,要落實(shí)到具體的負(fù)責(zé)人,具體的時(shí)間

故障的措施優(yōu)先是必須技術(shù)的,然后是流程,最后是人的

故障的措施可以分為長(zhǎng)期措施和臨時(shí)措施

故障的措施一定要僅僅扣住故障的根因,避免流于形式和表面

故障的措施切忌“亡羊補(bǔ)牢”式的,需要全面細(xì)致的分析

故障的措施一定要保證后續(xù)的持續(xù)跟進(jìn)

一葉可以障目,但也可以一葉知秋,就看我們是否真的去認(rèn)真對(duì)待。你們真的重視故障了么?你們真的重視運(yùn)維了么?故障不能帶來(lái)運(yùn)維人的春天,從根本上去意識(shí)到運(yùn)維的重要性,那才是運(yùn)維人真正的春天。

小編推薦閱讀

好特網(wǎng)發(fā)布此文僅為傳遞信息,不代表好特網(wǎng)認(rèn)同期限觀點(diǎn)或證實(shí)其描述。

相關(guān)視頻攻略

更多

同類(lèi)最新

更多

掃二維碼進(jìn)入好特網(wǎng)手機(jī)版本!

掃二維碼進(jìn)入好特網(wǎng)微信公眾號(hào)!

本站所有軟件,都由網(wǎng)友上傳,如有侵犯你的版權(quán),請(qǐng)發(fā)郵件[email protected]

湘ICP備2022002427號(hào)-10 湘公網(wǎng)安備:43070202000427號(hào)© 2013~2025 haote.com 好特網(wǎng)