Использование AI-агентов в работе SRE

Новый член команды, который не спит

Представьте, что в вашей SRE-команде появился стажер. Он невероятно старательный, читает горы документации за секунды, никогда не устает, не просит выходных и готов работать 24 часа в сутки семь дней в неделю. Но у него есть одна особенность: он делает только то, что вы ему точно и ясно опишете, и иногда ошибается самым неожиданным образом.

Примерно так сегодня выглядят AI-агенты в инженерии надежности. Они не заменяют людей, но становятся их бессменными помощниками, беря на себя рутину, ускоряя диагностику и автоматизируя то, что раньше требовало многих часов ручной работы.

Тема искусственного интеллекта в SRE развивается стремительно. Крупнейшие игроки рынка (Datadog, New Relic, Amazon, Microsoft и т.п.) уже выпустили собственных AI-агентов для задач надежности. Российский облачный провайдер cloud.ru добавил SRE-агента (там, правда, не совсем про SRE в широком понимании, но что-то он уже может) в своего помощника "Клаудия" . Научные исследования описывают мультиагентные системы, способные автономно управлять жизненным циклом инцидентов . Это не далекое будущее, а уже настоящее, которое уже стучится в двери каждой инженерной организации.

Эта глава для тех, кто хочет понять, как AI меняет работу SRE, какие задачи теперь можно доверить алгоритмам (и можно ли вообще) и где проходит граница между полезной автоматизацией и опасным самоуправством.

Чтобы понять революцию, которую вершат AI-агенты, нужно вспомнить, как эволюционировали инструменты SRE.

Долгое время основным инструментом был мониторинг. Система собирала метрики, логи и трейсы, отображала их на дашбордах и била тревогу, когда что-то выходило за пороги. Но решение проблем оставалось за человеком. Инженер получал алерт, открывал десяток дашбордов, сопоставлял данные, строил гипотезы, проверял их и только потом что-то делал (и не всегда то, что нужно).

Следующим шагом стала продвинутая наблюдаемость (observability). Системы научились не просто показывать данные, но и связывать их, строить графы зависимостей, помогать инженеру быстрее находить причины. Но инициатива по-прежнему оставалась за человеком.

AI-агенты это качественный скачок. Они не просто читают или показывают данные, они действуют сами.

Агент это программная сущность, которая воспринимает окружающую среду (читает метрики, логи, события), принимает решения на основе этого восприятия и выполняет действия, чтобы достичь поставленных целей. В контексте SRE это означает, что агент может:

  • обнаружить аномалию
  • провести диагностику
  • найти вероятную причину
  • предложить или даже самостоятельно выполнить исправление

И все это без прямого участия человека.

Ключевое отличие от традиционной автоматизации в том, что агенты используют LLM (большие языковые модели) и способны к рассуждению. Они не просто выполняют жестко заданные скрипты, а адаптируют свое поведение к конкретной ситуации. Если сценарий не описан в runbook, старый скрипт ничего не сделает. Агент может прочитать документацию, проанализировать похожие инциденты из прошлого и предложить новое решение.

Cовременные SRE-агенты уже умеют многое, расскажу про конкретные возможности, которые уже сегодня доступны в коммерческих и открытых решениях.

Автоматическая диагностика и анализ первопричин

Это, пожалуй, самая зрелая и самая востребованная функция. Когда случается инцидент, агент автоматически собирает данные из всех доступных источников: метрики производительности, логи ошибок, события оркестрации, историю изменений. Он строит временную шкалу и выдает заключение.

Исследование, представленное в конце 2025 года, описывает мультиагентную систему, достигающую 96% точности в анализе корневых причин инцидентов. Это означает, что в подавляющем большинстве случаев агент правильно определяет, что именно пошло не так.

На практике, например, в Azure SRE Agent, это выглядит так: инженер спрашивает у агента "Что не так с моим контейнерным приложением?", и агент отвечает развернутым анализом с указанием конкретной проблемы — например, неверного тега образа .

Контекстные рекомендации по исправлению

Мало найти причину, нужно понять, что делать. Современные агенты не только диагностируют, но и предлагают действия.

В New Relic SRE Agent выступает как "всегда включенный член команды", который анализирует инцидент и рекомендует следующие шаги часто еще до того, как дежурный инженер успел подтвердить получение оповещения. Агент интегрируется с рабочими чатами в Slack и Zoom, позволяя инженерам запрашивать информацию прямо из каналов разбора инцидентов.

AWS в своем решении для SRE использует мультиагентную архитектуру, где специализированные агенты отвечают за разные аспекты: Kubernetes, логи, метрики, операционные процедуры. Супервайзер-агент координирует их работу, собирая результаты в единый отчет.

Автоматическое исправление (с одобрением человеком или без)

Следующий уровень это когда агент не просто советует, а сам делает. Конечно, в ответственных системах это требует осторожности, но технологии уже позволяют.

Тот же мультиагентный фреймворк, о котором я писал выше, показал 73% успешных автоматических исправлений кода в симулированной производственной среде . Среднее время полного разрешения инцидента сократилось с часов до менее чем 28 минут.

В Azure SRE Agent реализован сценарий с человеческим контролем: агент обнаруживает проблему (например, неправильный тег образа), предлагает откатиться к последней рабочей версии и запрашивает подтверждение у инженера . Только после одобрения выполняются действия.

Интеграция с существующими инструментами

Очень важно понять, что AI-агенты не требуют замены всего используемого стека, они прекрасно интегрируются с тем, что у вас уже есть.

Например, решение от Rootly, позиционируемое как "интеллектуальный слой" SRE-стека, подключается к существующим системам мониторинга (Prometheus, Datadog), инструментам коллаборации (Slack) и пайплайнам CI/CD. Оно не заменяет их, а надстраивается сверху, превращая разрозненные инструменты в единый интеллектуальный организм.

А мой коллега написал MCP-сервер для Mattermost, в котором доступно 36 тулов для работы с каналами, сообщениями, командами, файлами и т.п. - сейчас это самый крутой MCP-сервер для Mattermost на рынке. С его помощью можно полностью автоматизировать работу.

Умная фильтрация алертов

Проблема ложных срабатываний мучает SRE-команды с момента появления мониторинга. AI-агенты учатся отличать реальные угрозы от шума, группировать связанные алерты в один инцидент и оценивать бизнес-воздействие. Например и еще например.

Описана пятиступенчатая модель зрелости AI в управлении инцидентами: от простого обнаружения аномалий до полностью автономного исправления с обратной связью для обучения моделей .

Как работает AI-агент

Чтобы сделать картину более конкретной, давайте пройдем по реальному сценарию, описанному в документации Microsoft Azure.

Представьте, что у вас есть приложение, работающее в контейнерах. Инженер намеренно вносит ошибку, поменяв тег образа с latest на latest1, которого не существует. Приложение, естественно, перестает запускаться.

Срабатывает алерт. Агент SRE получает уведомление и начинает работу. Он анализирует состояние ресурсов в группе, проверяет логи, проверяет конфигурацию. Через некоторое время инженер открывает чат с агентом и задает вопрос: "Что не так с моим приложением?"

Агент отвечает структурированным анализом. Он указывает, что образ контейнера ссылается на тег latest1, который выглядит подозрительно, и рекомендует проверить, существует ли этот образ в реестре. Если тег ошибочный, приложение не сможет загрузиться.

Инженер отвечает "Да", подтверждая, что хочет исправить проблему. Агент предлагает откатиться к последней рабочей версии и снова запрашивает подтверждение. Получив одобрение, агент выполняет откат. Через несколько минут приложение снова работает.

Весь процесс занимает минуты вместо часов, при этом каждое критическое действие подтверждается человеком.

Мультиагентные системы - не один агент, а целая бригада

Один агент хорошо, а несколько специализированных еще лучше. Современная архитектура AI в SRE часто строится как команда агентов с разными ролями. В такой системе есть супервайзер-агент, который получает запрос и решает, к каким специалистам обратиться. Дальше работают:

  • агент инфраструктуры, который разбирается в Kubernetes, контейнерах, оркестрации
  • агент логов, который анализирует логи и ищет паттерны ошибок
  • агент метрик, который исследует временные ряды и аномалии производительности
  • агент runbook'ов, который знает документацию и процедуры

Каждый агент возвращает результаты супервайзеру, который собирает их в единый отчет и выдает инженеру Такая архитектура имитирует работу человеческой команды, где каждый специалист отвечает за свою область, но все работают над общей проблемой.

Но не будем забывать про риски и ограничения

Было бы наивно полагать, что AI-агенты это серебряная пуля и они все сделают за вас. Пока полностью им доверять я бы не стал :) - у них есть серьезные ограничения, и понимать их критически важно, чтобы потом не жалеть.

Галлюцинации

LLM иногда выдают уверенные, но совершенно неверные ответы. В контексте SRE это может означать рекомендацию выполнить опасную операцию на основе ошибочного анализа, поэтому все серьезные реализации должны включать человеческий контроль для всех критических действий .

Качество данных

Агент настолько хорош, насколько хороши данные, к которым он имеет доступ. Если ваши логи зашумлены и каждая команда пишет их в том формате, в котором ей хочется и удобно, если метрики неполны, а документация устарела, агент будет делать неверные выводы. Внедрение AI требует предварительной работы над качеством наблюдаемости. Не буду писать очевидное, но все должно быть в одном формате, размеченное, структурированное (например, постмортемы - по строгому шаблону, логи - в едином для всех машиночитаемом формате и т.п.)

Безопасность и доступы

Агент, который может выполнять действия в инфраструктуре, это мощный инструмент, который нужно тщательно защищать: ролевые модели доступа, аудит действий и соответствие стандартам.

Объяснимость

Если агент принял решение, любой инженер должен понимать, почему. Ему должны быть представлены полный ход рассуждений, ссылки на источники данных, объяснение принятого решени .

Потеря компетенций

Есть опасение, что чрезмерное доверие к AI может привести к деградации навыков у инженеров. Если агент всегда решает проблемы, люди перестают учиться на инцидентах.

Модель зрелости

Для организаций, которые хотят начать использовать AI в SRE, полезно рассматривать этот путь не как "быстро внедрили к завтрашнему утру!", а как поэтапное движение.

Сначала можно начать с применения к данным мониторинга, чтобы лучше определять аномалии и снижать шум алертов.

Потом можно научиться связывать события из разных источников, создавая единую картину инцидента вместо россыпи несвязанных сигналов.

Потом можно научить AI предлагать конкретные действия на основе анализа текущей ситуации и прошлых инцидентов. На этом этапе решения пока принимают люди, но с хорошей подсказкой.

Потом можно перейти к выполнению с контролем. Система может выполнять какие-то действия, но требует подтверждения от человека для критических операций - золотая середина между скоростью и безопасностью.

Ну, и наконец, приходим к тому, что модели непрерывно улучшаются на основе результатов своих действий. Успешные исправления повышают уверенность системы, ошибки ведут к корректировке алгоритмов.

Будущее

В будущем (в не таком уж и далеком) AI однозначно будет полноценным членом команды. Человек-инженер сможет просто сказать "исправь эту проблему" и получить решение полного цикла: диагностику, варианты исправления и даже готовый постмортем.

Агенты будут не просто реагировать на инциденты, а предсказывать их, анализируя тренды и паттерны деградации производительности. Они станут хранить память о прошлых решениях и учитывать индивидуальные предпочтения разных инженеров.

При этом люди останутся в цикле, но их роль сместится от ручного труда к стратегическим решениям, архитектурному проектированию и валидации действий AI. Агенты должны стать "специализированными работниками, которые сочетают гибкость и возможности рассуждения генеративных моделей с точными детерминированными функциями".

AI-агенты в SRE это не замена опытных инженеров, а их усиление. Агенты берут на себя всю рутину, работают 24/7, анализируют горы данных за секунды, но окончательные решения, особенно рискованные, остаются за людьми.

Организации, которые научатся правильно выстраивать это взаимодействие с понятными границами, качественными данными, надежным контролем и культурой доверия, получат огромное преимущество. Их инженеры перестанут тонуть в алертах и начнут заниматься действительно полезными, сложными и интересными задачами, а их системы станут не просто наблюдаемыми, но и в определенной степени самоисцеляющимися.