您的位置:首頁 > 業(yè)內(nèi)資訊 > 從“支付寶故障”說起:我們的互聯(lián)網(wǎng)為何如此脆弱?

從“支付寶故障”說起:我們的互聯(lián)網(wǎng)為何如此脆弱?

來源:互聯(lián)網(wǎng)運維雜談 | 時間:2015-06-18 11:52:21 | 閱讀:112 |  標簽: 攜程 支付寶   | 分享到:

5、知乎故障,直接說是機房故障,太簡單了,但我覺得最大的可能應(yīng)該是Tengine后端服務(wù)超時導致的,而非簡單的一個機房故障引起。

在每一次故障發(fā)生的時候,其實都是傷害了我們的用戶,內(nèi)部的表述就是可用性或者質(zhì)量。因此我們必須要足夠的重視,更需要我們把它變成寶貴的經(jīng)驗。那到底什么是可用性和可靠性?影響可用性的因素有哪些?運維如何提高可用性?等等。

一、什么是可用性和可靠性

可靠性是在給定的時間間隔和給定條件下,系統(tǒng)能正確執(zhí)行其功能的概率。可用性是指系統(tǒng)在執(zhí)行任務(wù)的任意時刻能正常工作的概率。先來看一些指標定義:

1. MTBF——全稱是Mean Time Between Failure,即平均無故障工作時間。就是從新的產(chǎn)品在規(guī)定的工作環(huán)境條件下開始工作到出現(xiàn)第一個故障的時間的平均值。MTBF越長表示可靠性越高正確工作能力越強。

2. MTTR——全稱是Mean Time To Repair,即平均修復時間。是指可修復產(chǎn)品的平均修復時間,就是從出現(xiàn)故障到修復中間的這段時間。MTTR越短表示易恢復性越好。

3. MTTF——全稱是Mean Time To Failure,即平均失效時間。系統(tǒng)平均能夠正常運行多長時間,才發(fā)生一次故障。系統(tǒng)的可靠性越高,平均無故障時間越長。

可用性Availability = MTBF / (MTBF + MTTR),一般我們都是用N個9來表達系統(tǒng)可用性,用宕機時長來說更好理解,如果以全年為周期(24*365=8760個小時),3個9(99.9%)就意味著全年宕機時長是525.6分鐘,4個9(99.99%)是52.6分鐘,5個9(99.999%)是5分鐘。

從這些時間指標上可以反向去推導IT能力不足的地方,比如說一個故障恢復時間很長,一定是自動恢復、運維意識、處理過程、系統(tǒng)架構(gòu)等地方不對,導致了這個宕機時間過長;平均失效時間短,一定是系統(tǒng)的可靠性出了問題,找技術(shù)設(shè)計的問題,找依賴的硬件環(huán)境問題等等

二、影響可用性的因素

影響可用性的因素非常的多,但是可以從幾個維度去看,人與組織、流程、技術(shù)和業(yè)務(wù)管理等四個維度。

小編推薦閱讀

好特網(wǎng)發(fā)布此文僅為傳遞信息,不代表好特網(wǎng)認同期限觀點或證實其描述。

相關(guān)視頻攻略

更多

同類最新

更多

掃二維碼進入好特網(wǎng)手機版本!

掃二維碼進入好特網(wǎng)微信公眾號!

本站所有軟件,都由網(wǎng)友上傳,如有侵犯你的版權(quán),請發(fā)郵件[email protected]

湘ICP備2022002427號-10 湘公網(wǎng)安備:43070202000427號© 2013~2025 haote.com 好特網(wǎng)