A webhelyek megbízhatósági tervezésének (SRE) dokumentációja
A Site Reliability Engineering olyan szoftvermérnöki szemlélet, amelynek a célja, hogy fenntarthatóan biztosítsa egy szervezet rendszereinek, szolgáltatásainak és termékeinek megfelelő szintű megbízhatóságát.
A megbízhatóság javítása modern üzemeltetési gyakorlatokkal
SRE az Azure-on
SRE-dokumentációk
Architektúra
Kiépítés és kézbesítés
SRE-előadások a Microsofttól
Kulturális környezet
- A Site Reliability Engineering fejlődése
- Épület SRE: Kultúra kívülről in
- Kulturális különbségek és hatékony együttműködés multikulturális csapatok számára
- Az SRE fejlődése és az SRE-katalizátorokra vonatkozó igény növekedése
- Visszajelzési hurkok: Az SR-ek előnyei és a bennük rejlő lehetőségek kiaknázásához szükséges előnyök
- Az üzleti metrikák megértésével jobb SRE-mérnökké válhat
- A helyek megbízhatóságának véget nem érő története
- A műveletek világában minden nap hétfőnek számít
Incidensmegoldás és incidens utáni értékelések
Monitorozás és megfigyelhetőség
- Több mint 600 millió tag és több száz mikroszolgáltatás: Hogyan skáláztuk a monitorozási rendszerünket a folyamatos használat érdekében
- Ki a kivert útvonalon: Az megfigyelhetőségi fókusz áthelyezése a szolgáltatásból az ügyfélhez
- Azt kapod, amit mérsz – Miért fontosak a metrikák?
- Időjárás a storm: hogyan korai figyelmeztetések menteni a farm
- Több millió lekérdezés rögzítése és elemzése többletterhelés nélkül
- Esemény-korreláció: Az MTTR csökkentésének új megközelítése
- Hogyan segítik a robusztus monitorozási képességek a LinkedIn-üzenetek magas rendelkezésre állását?
- Az MTTR és a hamis eszkalációk csökkentése: Eseménykorreláció a Linkedinben
Eljárások és alapelvek
- Rendelkezésre állás – Túl a 9-eseken
- Mentális modellek SRE-mérnökök számára
- A bizalom előtérbe helyezése alkalmazások létrehozásakor
- A Java nem csípi a Linuxot. Ez van.
- Az SRE-eljárások fázisainak jellemzése és értelmezése
- Biztonság és SRE: Természetes kényszerítő multiplikátorok
- Production Improvement Review: Taking a Bite Out of Repair Debt
- A magas rendelkezésre állású alkalmazások megbízhatóságának biztosítása
- A szolgáltatások pontozása: az üzemeltetésben elért eredmények játékos értékelése
- A szolgáltatások fejlesztése a hibák felderítésével
Csapatok és felügyelet
- Kódsárga: A top-heavy csapatok intelligens módjának segítése
- Vezetés kezelés nélkül: SRE technikai vezetővé válás
- Eltérések az SRE megvalósításában az egyes céges között
- 100 csapat, 100 hibalehetőség
- Egy SRE-szerződés elindítása – mit, miért és hogyan?
- SRE-csapatok felépítése és működtetése
- Főiskolai hallgató, hogy SRE: a bevezetés a belépési szintű tehetség
- LinkedIn SRE: A kezdetektől a globális skálázásig
- SRE DNS-szekvenciák szerkesztése a világ legnagyobb szoftverfejlesztő vállalatánál
- Hogyan válhatnak az 1. szintű hernyókból pillangók?
Eszközök és technológiák
- Azure SREBot: Több, mint csevegőrobot – intelligens robot a kárenyhítési idő csökkentéséhez
- TrafficShift: A nagy léptékű katasztrófák elkerülése
- Hozzunk létre elosztott fájlrendszert!
- TCP – Architektúra, fejlesztések és finomhangolás
- BGP – Az internet alapja
- Kiszolgáló nélküli szolgáltatások üzemeltetése
- A Kafka alkalmazása az adatbázis-infrastruktúra méretezésében
- SR-hálózatok: Mit kell tudnom az alkalmazások hibaelhárításához?
- Ambry – A LinkedIn elosztott, nem módosítható objektumtára
- BPerf – Bing.com felhőprofil készítése éles környezetben
- DNS: Régi megoldás modern problémákra
- Forgalomterelés a Rum DNS használatával a LinkedInen
Méretezés
- Infrastruktúra forgalom-előrejelzéshez és terhelési teszteléshez
- A nagy léptékű tanulás nehéz! Szolgáltatáskimaradási mintázatok elemzése és a piszkos adatok
- Elosztott állapotalapú rendszer skálázása: LinkedIn-esettanulmány
- Nagy léptékű hibakeresés – a fejlesztői környezettől az élesig
- Centralizált gyorsítótárazási infrastruktúra felépítése nagy léptékben
- Méretezhető kódolás – a hiba keresése
- Kapacitáskezelés a LinkedInnél
- InStream: Nagy léptékű elosztás BitTorrent, Python, Salt és Kafka használatával
- Hogyan kerüljük el a kapacitásbörtönt, illetve hogyan törjünk ki onnan?
- A globális forgalom-útválasztás és feladatátvétel fejlődése