Словарь SRE: с инженерного на человеческий

Термин (англ.) Термин (рус.) Человеческий перевод
SRE (Site Reliability Engineer) Инженер по надежности Следит, чтобы разработка и работа сервиса или продукта шла по правилам и никто не сделал себе больно.
SLO (Service Level Objective) Целевой уровень обслуживания План по надою молока. Ты не ждешь от буренки 100 литров в день, это тупо. Ты ставишь реалистичную цель: 20 литров. Если буренка дает 20 — ты доволен. SLO это та цифра, на которую вы договорились с бизнесом, чтобы считать, что сервис «работает хорошо».
SLI (Service Level Indicator) Индикатор качества обслуживания Счетчик надоя. Это не план, это фактическое значение. Та самая цифра, которую ты видишь на датчике доильного аппарата.
SLA (Service Level Agreement) Соглашение об уровне обслуживания Официальное обещание с последствиями. Это SLO, за которое ты отвечаешь рублем перед клиентом.
Error Budget Бюджет ошибок Бюджет на шалости. Пока лимит простоя не исчерпан — можно выпускать кривые фичи. Закончился? Чини ошибки.
Toil Ручные действия Перекладывание бумажек. Работа, которую инженеры делают вручную, и она не приносит пользы. Нормальные SRE это автоматизируют.
Reliability Надежность Старый дедушкин холодильник ЗиЛ. Включаешь — гудит. Выключаешь — гудит. Морозит всегда. Уже сорок лет.
Availability Доступность Работает ли кофемашина прямо сейчас? Бинарный показатель: можешь налить кофе или нет.
Latency Задержка Время ожидания кофе. Не про то, сломана кофемашина, а про то, как долго ты стоишь в очереди.
p^95 / p^99 latency 95-й / 99-й процентиль задержки Сколько ждут самые нетерпеливые. 95% ждут не больше 5 минут, а 5% самых невезучих — дольше.
Postmortem Разбор полетов После того, как самолет упал, собирается комиссия и разбирает: почему это произошло, что сделать, чтобы не повторилось.
MTTR (Mean Time To Recover) Среднее время восстановления От момента «всё пропало» до момента «фух, заработало». Чем меньше — тем круче.
MTBF (Mean Time Between Failures) Среднее время между отказами Сколько система работает без поломок. Если MTBF большой — сервис стабильный.
Capacity Planning Планирование мощностей Закупка продуктов на Новый год. Ты знаешь, что обычно приходит 10 гостей, а будет 20. Нужно закупить в 2 раза больше.
Scalability Масштабируемость Резиновые штаны. Когда приходит много клиентов — система подключает доп-мощности. Когда уходят — отключает.
Idempotency Идемпотентность Кнопка закрытия дверей в лифте. Можно нажать один раз, можно десять — результат будет один и тот же.
Feature Flag Функциональный флаг Скатерть-самобранка с секретом. Вы ставите на стол новое блюдо, но оно под колпаком. Если не понравилось — накрываете колпаком обратно за секунду.
Rollback Откат Ctrl+Z. Выпустили обновление — всё сломалось. Жмете Ctrl+Z, и сервис снова работает.
Blameless Culture Культура без обвинений Когда что-то ломается, ищут не фамилию для наказания, а слабое место в системе.
Burn Rate Скорость сгорания бюджета Как быстро тает ваш бюджет ошибок. Если бюджет на месяц сгорает за два дня — всё плохо.
Blast Radius Радиус поражения Если компонент упал, сколько ещё сервисов он утащит за собой.
Canary Deployment Канареечное развертывание Сначала пускаем 1% трафика на новую версию. Если не взорвалось — пускаем 100%.
Chaos Engineering Хаос-инжиниринг Намеренно ломаем систему (в контролируемых условиях), чтобы узнать её слабые места до реального сбоя.
Circuit Breaker Предохранитель Если сервис начал падать — автоматически перестаём слать ему запросы, даём отдохнуть и пробуем снова.
Daemon Set Демон-сет Запускаем ровно один экземпляр сервиса на каждом узле кластера. Например, для сбора логов.
GameDay Учебная тревога Запланированный день, когда команда deliberately ломает систему и тренируется её чинить.
Headroom Запас ёмкости Сколько свободных ресурсов у системы сверх текущей нагрузки.
Idempotency Идемпотентность Повтор одной и той же операции не меняет результат.
On-Call Дежурство Инженер (или группа), который отвечает за реагирование на инциденты прямо сейчас.
Runbook Инструкция Чек-лист действий для типовой аварии: шаг 1, шаг 2, эскалация.
Service Mesh Сервисная сетка «Регулировщик» для микросервисов: сам в трафике не участвует, но управляет им — ретраи, таймауты, шифрование.
Sidecar Сайдкар Вспомогательный контейнер, который запускается рядом с основным и берёт на себя инфраструктурную работу.
Rolling Update Постепенное обновление Обновляем сервис по одному экземпляру, а не все сразу.
Strangler Fig Паттерн «удушение» Новый функционал пишется рядом со старым, старый постепенно вытесняется — без big-bang переписывания.
RTO (Recovery Time Objective) Целевое время восстановления Сколько времени у вас есть, чтобы поднять упавший сервис, пока бизнес не разорился.
RPO (Recovery Point Objective) Целевая точка восстановления Сколько данных вы готовы потерять при сбое. Час? День? Неделя?
Triage Триаж Сортировка инцидентов по критичности. Что чинить первым, что может подождать.
Health Model Модель здоровья 5–10 ключевых сигналов, которые дают один ответ: «система жива» или «система умирает».
Thundering Herd Бегущее стадо Когда упавший сервис поднялся, и все клиенты одновременно ломятся к нему — он падает снова. Лечится jitter-ом.
Split-brain Разделение сознания Два сервера думают, что они главные, и данные расходятся. Опасная ситуация.
Tail Latency Хвостовая задержка Самые медленные запросы. Если 99% запросов выполняются за 10 мс, а 1% — за 2 секунды, проблема в хвосте.
Rate Limiting Ограничение частоты Если клиент шлёт 1000 запросов в секунду, а сервис держит только 100 — лишние отклоняем.
Zero-downtime Deployment Деплой без даунтайма Обновляем код так, чтобы пользователи ничего не заметили.
Wide Events Широкие события Когда в одно событие (например, HTTP-запрос) записывается вся связанная информация: user_id, latency, ошибка, версия кода. Основа observability 2.0.