Trang chủ
PHASE 3: ĐI SÂU VÀO HỆ THỐNG (DAY 51 - 75)/Ngày 59/100
DAY 59🇯🇵 システムの信頼性
Độ tin cậy & SRE Basics
59%
Quảng cáo • Advertisement
📢 Sponsor Ad
Google AdSense
lesson.content.title
lesson.content.subtitle
🎯 Mục tiêu bài học
Làm sao để hệ thống chạy "bất tử"? (High Availability).
1. Các chỉ số đo lường (Metrics)
- MTBF (Mean Time Between Failures): Thời gian trung bình GIỮA 2 lần hỏng. Đo độ "Trâu". (Vd: Ổ cứng server có MTBF = 1 triệu giờ).
- MTTR (Mean Time To Repair): Thời gian trung bình ĐỂ SỬA xong. Đo tốc độ đội Sysadmin.
$$ Availability = rac{MTBF}{MTBF + MTTR} $$
Để tăng Availability, ta có 2 cách: Tăng độ bền thiết bị (Tăng MTBF) hoặc Sửa thật nhanh (Giảm MTTR).
2. Những con số 9 (The Nines)
| Độ sẵn sàng | Downtime cho phép/năm | Ghi chú |
|---|---|---|
| 99% (2 số 9) | 3.65 ngày | Web cỏ, Blog cá nhân |
| 99.9% (3 số 9) | 8.76 giờ | Web thương mại nhỏ |
| 99.99% (4 số 9) | 52 phút | Enterprise (Banking Core) |
| 99.999% (5 số 9) | 5 phút | Viễn thông, Hệ thống y tế |
3. Failover & Redundancy
SPOF (Single Point of Failure): Điểm chết duy nhất. Nếu Router hỏng mà cả mạng mất -> Router là SPOF.
Giải pháp: Active-Passive vs Active-Active.
- Active-Passive: Server A chạy, Server B ngủ. A chết -> B tỉnh dậy chạy thay. (Lãng phí B).
- Active-Active: Cả A và B cùng chạy. Có Load Balancer chia tải. A chết -> Dồn hết sang B. (Tận dụng tốt, nhưng Cấu hình phức tạp).
Quảng cáo • Advertisement
📢 Ad Space
Google AdSense