Was ist ein Error Budget?
Das Error Budget ist ein Schlüsselkonzept des Site Reliability Engineerings (SRE), das von Google populär gemacht wurde. Es hilft, eine Balance zwischen Stabilität/Verfügbarkeit einer Anwendung und der schnellen Einführung neuer Features oder Änderungen zu finden.
Definition & Rechenbeispiel:
Ein Error Budget basiert auf einem definierten Zielwert für die Systemverfügbarkeit, etwa in Form einer Service Level Objective (SLO).
Beispiel:
Eine Anwendung soll im Monat zu 99,9 % verfügbar sein (= SLO). Das bedeutet, dass pro Monat max. 0,1 % Ausfall oder Fehlersituationen toleriert werden. Bei ca. 43.200 Minuten/Monat erlaubt das Error Budget 43 Minuten (0,1 %) Ausfallzeit.
Vorteile & Praxis:
- Steuerungsinstrument: Solange das Error Budget nicht aufgebraucht ist, kann ein Team neue Features oder riskantere Deployments schneller freigeben, um Innovationen voranzutreiben.
- Kollaboration: Dev- und Ops-Teams einigen sich gemeinsam auf das Error Budget und entscheiden zusammen, wie restriktiv oder innovationsfreudig sie agieren.
- Risikomanagement: Ist das Error Budget fast aufgebraucht (z. B. mehrere Ausfälle im Monat), erfolgen keine riskanten Updates, stattdessen liegt der Fokus auf Stabilität und Bugfixes.
Beispiel aus der Praxis:
Ein Online-Shop hat 5 Minuten ungeplante Downtime pro Monat. Da das Error Budget 10 Minuten erlaubt, kann das Entwicklungsteam weiterhin Features ausrollen. Bei Überschreiten des Error Budgets werden alle neuen Deployments gestoppt, bis die Systemstabilität wieder im Zielbereich liegt.
Zusammengefasst:
Das Error Budget hilft, Entscheidungen über Innovation und Risiko objektiv, nachvollziehbar und zielorientiert zu treffen – und die Zusammenarbeit zwischen Entwicklung und Betrieb effektiver zu gestalten.