Карьерный путь SRE

Не просто технари

Если вы представляете себе карьеру SRE как бесконечное сидение за монитором в темной комнате и реагирование на алерты - это вообще не так :) Карьера SRE это уникальное сочетание инженерного мастерства, управленческого мышления и умения в бизнес-аналитику. Нельзя сказать, что "SRE - это исключительно технарь" или "SRE - это просто менеджер".SRE - это сплав умения решать конкретные технические проблемы и умения и понимания формирования надежности компании (в том числе и понимания, как работает бизнес и как он зарабатывает деньги).

Начало пути: стажер или junior

Чем занимается?

Учится, наблюдает и помогает.

Настраивает мониторинг и алертинг систем под руководством наставника, участвует в инцидентах и написании постмортемов по ним, пишет простые скрипты для автоматизации рутинных задач, изучает основы облачных платформ и принципов работы компании.

На этой стадии считаю очень важным умение задавать вопросы, искать ответы, способность учиться и не стесняться своего незнания какой-то области. Важно понимать не только "как", но и "почему" что-то работает именно так.

Именно здесь закладывается фундамент.

Однозначно должен быть технический бэкграунд.

SRE

Чем занимается?

Независимо отвечает за надежность конкретных сервисов.

Реагирует на инциденты, проектирует и внедряет мониторинг, автоматизирует повторяющиеся операции, взаимодействует с командами разработки для улучшения дизайна новых функций с точки зрения надежности.

На этой стадии должен быть развит навык инженерного мышления. Это не про то, чтобы постоянно тушить пожары. Это про то, чтобы найти коренную причину возгорания и построить систему, которая не даст этому повториться. Баланс между новыми функциями и стабильностью становится ежедневной практикой.

На этом этапе нужно стать полноценным владельцем надежности своих сервисов и научиться общаться с разработкой.

Senior/Staff SRE - стратег и архитектор

Чем занимается?

Переходит от тактики к стратегии. Влияет на несколько команд или всю организацию.

Проектирует отказоустойчивые архитектуры для критически важных систем, разрабатывает внутренние платформы и инструменты, которые используют другие инженеры, определяет SLO для ключевых продуктов компании, выступает ментором для младших коллег.

Senior SRE должен видеть картину целиком: как сбой в одном микросервисе влияет на бизнес-метрики (например, на выручку). Он должен уметь убеждать, аргументировать и вести за собой команды разработки, не являясь их формальным руководителем.

Его цель - повышать надежность и эффективность на уровне всей организации, а не на уровне одного сервиса.

Principal SRE / Head of SRE / Engineering Director - лидер и управленец

Чем занимается?

Формирует культуру надежности в компании и управляет командой.

Формирует бюджеты, занимается наймом и развитием талантов, построением долгосрочной стратегии надежности (Reliability Roadmap), коммуникацией с высшим руководством (C-level) о том, как инженерные решения влияют на бизнес-риски и возможности.

Должен уметь переводить технический жаргон на язык бизнес-целей. Вопросы теперь звучат так: "Сколько стоит для компании один час простоя?", "Какую команду стоит расширить в первую очередь для снижения ключевых рисков?" и т.п.

Делает надежность (Reliability) конкурентным преимуществом и неотъемлемой частью компании.

Ветвления и специализации

Не все SRE идут строго в управление. Путь может разветвляться:

  1. Глубокая техническая экспертиза (Individual Contributor, IC): например, специализация на безопасности (SecSRE), базах данных, сетях или performance (производительности). Это "узкие" гуру, к которым идут за советом все.
  2. Продуктовый SRE: максимально тесная работа с конкретным продуктом, почти как встроенный член продуктовой команды. Фокус на пользовательском опыте и его улучшении.
  3. SRE-евангелист/ментор: развитие практик SRE в сообществе, обучении, написании статей и книг.

Независимо от должности и специализации, хорошего SRE отличает набор принципов: - Автоматизация рутины: ненависть к повторяющейся, скучной работе - двигатель прогресса. - Измерение всего: решения должны основываться исключительно на данных, а не на чьих-то предположениях. SLO, SLI, бюджет на ошибки - рабочие инструменты. - Культура "Без вины" (Blameless): провалы и факапы - это возможность учиться для системы. - Сквозная ответственность: SRE заинтересован в успехе продукта у пользователя, а не просто в зеленых графиках.

Должен ли SRE...

Знать алгоритмы и структуры данных?

Алгоритмы и структуры данных не так важны для SRE. Важнее уметь управлять ресурсами, понимать, как не допустить утечки ресурсов (память, коннекшены, потоки, воркеры и т.п.), как это мониторить, как писать и безопасно работать с очередями и буферами внутри приложения. Как писать код, устойчивый к ошибкам разработчика (не упустить ни одного исключения, например). Как писать шардирование и репликацию. Как написать приложение, которое легко мониторить. Как написать приложение, которое всегда можно откатить. Как написать приложение, которое можно деплоить незаметно для пользователя. Как версионировать API, чтобы можно было держать в кластере разные версии одного приложения (в процессе выкатки новой версии). Как написать приложение, которое умеет корректно завершаться.

В книгах по алгоритмам этого всего не пишут.

SRE - это карьера на стыке разных миров

Карьерный путь SRE это яркий пример того, как глубокая техническая экспертиза эволюционирует в стратегическое бизнес-влияние. Это путь от реакции к проактивности, от тактики к стратегии, от кода к культуре. Для неинженерной аудитории понимание этого пути показывает, что надежность digital-продукта это не магия, а результат выстроенной системы ролей, где каждый уровень вносит свой критически важный вклад в то, чтобы приложение просто работало, когда это нужно клиенту. И в этом главная ценность SRE для бизнеса.