Карьерный путь SRE¶
Не просто технари¶
Если вы представляете себе карьеру SRE как бесконечное сидение за монитором в темной комнате и реагирование на алерты - это вообще не так :) Карьера SRE это уникальное сочетание инженерного мастерства, управленческого мышления и умения в бизнес-аналитику. Нельзя сказать, что "SRE - это исключительно технарь" или "SRE - это просто менеджер".SRE - это сплав умения решать конкретные технические проблемы и умения и понимания формирования надежности компании (в том числе и понимания, как работает бизнес и как он зарабатывает деньги).
Начало пути: стажер или junior¶
Чем занимается?
Учится, наблюдает и помогает.
Настраивает мониторинг и алертинг систем под руководством наставника, участвует в инцидентах и написании постмортемов по ним, пишет простые скрипты для автоматизации рутинных задач, изучает основы облачных платформ и принципов работы компании.
На этой стадии считаю очень важным умение задавать вопросы, искать ответы, способность учиться и не стесняться своего незнания какой-то области. Важно понимать не только "как", но и "почему" что-то работает именно так.
Именно здесь закладывается фундамент.
Однозначно должен быть технический бэкграунд.
SRE¶
Чем занимается?
Независимо отвечает за надежность конкретных сервисов.
Реагирует на инциденты, проектирует и внедряет мониторинг, автоматизирует повторяющиеся операции, взаимодействует с командами разработки для улучшения дизайна новых функций с точки зрения надежности.
На этой стадии должен быть развит навык инженерного мышления. Это не про то, чтобы постоянно тушить пожары. Это про то, чтобы найти коренную причину возгорания и построить систему, которая не даст этому повториться. Баланс между новыми функциями и стабильностью становится ежедневной практикой.
На этом этапе нужно стать полноценным владельцем надежности своих сервисов и научиться общаться с разработкой.
Senior/Staff SRE - стратег и архитектор¶
Чем занимается?
Переходит от тактики к стратегии. Влияет на несколько команд или всю организацию.
Проектирует отказоустойчивые архитектуры для критически важных систем, разрабатывает внутренние платформы и инструменты, которые используют другие инженеры, определяет SLO для ключевых продуктов компании, выступает ментором для младших коллег.
Senior SRE должен видеть картину целиком: как сбой в одном микросервисе влияет на бизнес-метрики (например, на выручку). Он должен уметь убеждать, аргументировать и вести за собой команды разработки, не являясь их формальным руководителем.
Его цель - повышать надежность и эффективность на уровне всей организации, а не на уровне одного сервиса.
Principal SRE / Head of SRE / Engineering Director - лидер и управленец¶
Чем занимается?
Формирует культуру надежности в компании и управляет командой.
Формирует бюджеты, занимается наймом и развитием талантов, построением долгосрочной стратегии надежности (Reliability Roadmap), коммуникацией с высшим руководством (C-level) о том, как инженерные решения влияют на бизнес-риски и возможности.
Должен уметь переводить технический жаргон на язык бизнес-целей. Вопросы теперь звучат так: "Сколько стоит для компании один час простоя?", "Какую команду стоит расширить в первую очередь для снижения ключевых рисков?" и т.п.
Делает надежность (Reliability) конкурентным преимуществом и неотъемлемой частью компании.
Ветвления и специализации¶
Не все SRE идут строго в управление. Путь может разветвляться:
- Глубокая техническая экспертиза (Individual Contributor, IC): например, специализация на безопасности (SecSRE), базах данных, сетях или performance (производительности). Это "узкие" гуру, к которым идут за советом все.
- Продуктовый SRE: максимально тесная работа с конкретным продуктом, почти как встроенный член продуктовой команды. Фокус на пользовательском опыте и его улучшении.
- SRE-евангелист/ментор: развитие практик SRE в сообществе, обучении, написании статей и книг.
Независимо от должности и специализации, хорошего SRE отличает набор принципов: - Автоматизация рутины: ненависть к повторяющейся, скучной работе - двигатель прогресса. - Измерение всего: решения должны основываться исключительно на данных, а не на чьих-то предположениях. SLO, SLI, бюджет на ошибки - рабочие инструменты. - Культура "Без вины" (Blameless): провалы и факапы - это возможность учиться для системы. - Сквозная ответственность: SRE заинтересован в успехе продукта у пользователя, а не просто в зеленых графиках.
Должен ли SRE...¶
Знать алгоритмы и структуры данных?¶
Алгоритмы и структуры данных не так важны для SRE. Важнее уметь управлять ресурсами, понимать, как не допустить утечки ресурсов (память, коннекшены, потоки, воркеры и т.п.), как это мониторить, как писать и безопасно работать с очередями и буферами внутри приложения. Как писать код, устойчивый к ошибкам разработчика (не упустить ни одного исключения, например). Как писать шардирование и репликацию. Как написать приложение, которое легко мониторить. Как написать приложение, которое всегда можно откатить. Как написать приложение, которое можно деплоить незаметно для пользователя. Как версионировать API, чтобы можно было держать в кластере разные версии одного приложения (в процессе выкатки новой версии). Как написать приложение, которое умеет корректно завершаться.
В книгах по алгоритмам этого всего не пишут.
SRE - это карьера на стыке разных миров¶
Карьерный путь SRE это яркий пример того, как глубокая техническая экспертиза эволюционирует в стратегическое бизнес-влияние. Это путь от реакции к проактивности, от тактики к стратегии, от кода к культуре. Для неинженерной аудитории понимание этого пути показывает, что надежность digital-продукта это не магия, а результат выстроенной системы ролей, где каждый уровень вносит свой критически важный вклад в то, чтобы приложение просто работало, когда это нужно клиенту. И в этом главная ценность SRE для бизнеса.