SRE. Путеводитель по надежности для неинженеров
  • Предисловие
  • Благодарности

Часть I: Фундамент

  • Теория надежности
  • Ключевые метрики надежности, или Как измерить здоровье системы
  • Восемь смертных грехов распределённых систем
  • Разница между мониторингом и наблюдаемостью
  • SLI: Что измеряем?
  • SLO: Какой уровень надежности хотим?
  • Как определить свои SLI и SLO?
  • Что делать при нарушении SLO?
  • Цепочка надежности: железо, сеть, ПО, люди, процессы
  • Закон убывающей отдачи
  • Психология надежности
  • Cтоимость «пяти девяток»
  • Основные принципы SRE
  • SRE как реализация DevOps-принципов
  • Основные принципы Google
  • Error Budget: главный инструмент управления рисками
  • Toil: враг номер один
  • Постепенное снижение риска
  • Автоматизация, мониторинг, измерение всего
  • Единая команда: разработчики и SRE

Часть II: Столпы SRE-практики

  • Телеметрия
  • Темная сторона метрик и KPI
  • Что скрывается внутри вашего сервиса? Black/white/gray boxes
  • Принципы качественного алертинга
  • Жизненный цикл инцидента
  • Создание дашбордов для SLO. Разница между дебаггингом и бизнес-дашбордами
  • Культура blameless postmortem
  • Роль SRE в Incident Management
  • Почему большинство инцидентов вызвано изменениями?
  • Типовые причины сбоев

Часть III: Инженерные практики SRE

  • Стратегия автоматизации: что автоматизировать в первую очередь?
  • Reliability Block Diagrams
  • Мысли про измерение MTTR
  • Планирование необходимых ресурсов
  • Как проверить надежность до продакшена?
  • Метрики и проклятие cardinality
  • Про RTO и RPO
  • Зачем нужны несколько дата-центров?
  • Техники: timeout, retry, circuit breaker, load balancing
  • Инфраструктура как код
  • SLO как код
  • Иммутабельная инфраструктура
  • Надежных систем не бывает, бывает готовность к сбоям
  • Анализ bottlenecks

Часть IV: SRE в компании

  • Как внедрить SRE в компании?
  • Модели внедрения SRE
  • Зрелость культуры SRE
  • Как объяснить продукту, что такое SRE и чем они занимаются
  • Что делать, если у вас нет выделенного SRE?
  • Модель здоровья продукта
  • Управление надежностью сторонних зависимостей
  • Пример методики расчета доступности
  • Финансовая модель надежности
  • DevSecOps и SRE - кто отвечает за ИБ
  • Карьерный путь SRE
  • Использование AI-агентов в работе SRE

Часть V: Заключение

  • Тренды SRE

Приложения

  • SLOzy - генератор OpenSLO YAML с полной поддержкой алертинга
  • Sloth - инструмент генерации SLO
  • Что еще почитать или посмотреть про SRE?
  • Словарь терминов
SRE. Путеводитель по надежности для неинженеров
  • Часть III: Инженерные практики SRE
  • Стратегия автоматизации: что автоматизировать в первую очередь?

Назад Вперед

Copyright © 2022-2026

Эта книга распространяется под лицензией CC BY-NC-SA 4.0

Собрано в MkDocs с использованием темы от Read the Docs.
« Назад Вперед »