Site Reliability Engineering

Betsy Beyer, Chris Jones, Jennifer Petoff & Niall Richard Murphy

Sidor

552

År

2016

Svårighetsgrad

Utmanande

Teman

site reliability engineering, övervakning, incidenthantering, kapacitetsplanering, produktionssystem

Boken som definierade site reliability engineering som en disciplin. Skriven av medlemmar i Googles SRE-team och redigerad av Beyer förklarar den hur Google bygger, driftar, övervakar och underhåller några av världens största mjukvarusystem.

Varför börja här

Site Reliability Engineering är Beyers viktigaste redaktionella prestation och verket som etablerade hennes rykte. Hon organiserade och formade essäer från dussintals Google-ingenjörer till en sammanhängande bok som täcker allt från övervakning och larm till incidenthantering, kapacitetsplanering och jourrotationer. Det centrala argumentet är att tillförlitlighet bör ingenjörsmässigt hanteras med samma rigor som vilken annan produktfunktion som helst.

Googles approach, att sätta felbudgetar, automatisera tråkigt arbete och behandla driftarbete som mjukvaruutveckling, blev mallen för hur moderna organisationer tänker kring att köra produktionssystem. Innan denna bok levde dessa idéer inuti Google. Beyer och hennes medredaktörer gjorde dem tillgängliga för hela branschen.

Vad du kan förvänta dig

En samling essäer på 552 sidor av Google-ingenjörer, organiserade i sektioner om principer, praxis och ledning. Skrivkvaliteten varierar mellan kapitel, men de bästa kapitlen är exceptionellt tydliga. De flesta läser inte boken från pärm till pärm utan väljer kapitel relevanta för sin situation.

Läs vidare

Liknande författare