SRE. Путеводитель по надежности для неинженеров
  • Предисловие
  • Благодарности

Часть I: Фундамент

  • Теория надежности
  • Ключевые метрики надежности, или Как измерить здоровье системы
  • Восемь смертных грехов распределённых систем
  • Разница между мониторингом и наблюдаемостью
  • SLI: Что измеряем?
  • SLO: Какой уровень надежности хотим?
  • Как определить свои SLI и SLO?
  • Что делать при нарушении SLO?
  • Цепочка надежности: железо, сеть, ПО, люди, процессы
  • Закон убывающей отдачи
  • Психология надежности
  • Cтоимость «пяти девяток»
  • Основные принципы SRE
  • SRE как реализация DevOps-принципов
  • Основные принципы Google
  • Error Budget: главный инструмент управления рисками
  • Toil: враг номер один
  • Постепенное снижение риска
  • Автоматизация, мониторинг, измерение всего
  • Единая команда: разработчики и SRE

Часть II: Столпы SRE-практики

  • Телеметрия
  • Темная сторона метрик и KPI
  • Что скрывается внутри вашего сервиса? Black/white/gray boxes
  • Принципы качественного алертинга
  • Жизненный цикл инцидента
  • Создание дашбордов для SLO. Разница между дебаггингом и бизнес-дашбордами
  • Культура blameless postmortem
  • Роль SRE в Incident Management
  • Почему большинство инцидентов вызвано изменениями?
  • Типовые причины сбоев

Часть III: Инженерные практики SRE

  • Стратегия автоматизации: что автоматизировать в первую очередь?
  • Reliability Block Diagrams
  • Мысли про измерение MTTR
  • Планирование необходимых ресурсов
  • Как проверить надежность до продакшена?
  • Метрики и проклятие cardinality
  • Про RTO и RPO
  • Зачем нужны несколько дата-центров?
  • Техники: timeout, retry, circuit breaker, load balancing
  • Инфраструктура как код
  • SLO как код
  • Иммутабельная инфраструктура
  • Надежных систем не бывает, бывает готовность к сбоям
  • Анализ bottlenecks

Часть IV: SRE в компании

  • Как внедрить SRE в компании?
  • Модели внедрения SRE
  • Зрелость культуры SRE
  • Как объяснить продукту, что такое SRE и чем они занимаются
  • Что делать, если у вас нет выделенного SRE?
  • Модель здоровья продукта
  • Управление надежностью сторонних зависимостей
  • Пример методики расчета доступности
  • Финансовая модель надежности
  • DevSecOps и SRE - кто отвечает за ИБ
  • Карьерный путь SRE
  • Использование AI-агентов в работе SRE

Часть V: Заключение

  • Тренды SRE

Приложения

  • SLOzy - генератор OpenSLO YAML с полной поддержкой алертинга
  • Sloth - инструмент генерации SLO
  • Что еще почитать или посмотреть про SRE?
  • Словарь терминов
SRE. Путеводитель по надежности для неинженеров
  • Приложения
  • Что еще почитать или посмотреть про SRE?

Что еще почитать или посмотреть про SRE?¶

Книги¶

  • Reliability Engineering by L. S. Srinath
  • Site Reliability Engineering: How Google Runs Production Systems
  • Site Reliability Workbook
  • Becoming SRE: First Steps Toward Reliability for You and Your Organization by David N. Blank-Edelman (она в русском переводе: "Настоящий SRE. Инжиниринг надежности для специалистов и организаций")
  • Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems
  • Seeking SRE: Conversations About Running Production Systems at Scale
  • Implementing Service Level Objectives
  • An Elegant Puzzle: Systems of Engineering Management
  • The Engineering Executive's Primer: Impactful Technical Leadership
  • Observability Engineering: Achieving Production Excellence
  • "Надежность технических систем" под редакцией И. А. Ушакова
  • Normal Accidents: Living with High Risk Technologies

Блоги¶

  • The Pragmatic Engineer
  • Sean Goedecke
  • SRE Weekly
  • Reliability Engineering
  • Google Site Reliability Engineering

Видео¶

Конференции¶

  • SREday
  • SREcon
Назад Вперед

Copyright © 2022-2026

Эта книга распространяется под лицензией CC BY-NC-SA 4.0

Собрано в MkDocs с использованием темы от Read the Docs.
« Назад Вперед »