Темная сторона метрик и KPI - выстрели себе в коленку¶
Метрики - необходимый инструмент в SRE, продукте и бизнесе. Это проекция сложной реальности в измеримые величины, помогающая принимать решения. Очень плохо, когда это превращается в каргокульт.
Закон Гудхарта и искажение поведения¶
Когда показатель становится целью, он перестает быть хорошим показателем
Это принцип, означающий, что любая статистическая закономерность, используемая для контроля, имеет тенденцию разрушаться из-за попыток манипулировать ею для достижения желаемого результата, что искажает первоначальную цель.
Когда метрика становится целью, она перестаёт быть хорошим показателем. История с индийскими кобрами, вьетнамскими крысами и канадскими сиротами Дюплесси - самые яркие примеры, где стимулы приводили к системным сбоям и катастрофическим побочным эффектам. В технологиях это проявляется в оптимизации скорости "решения" инцидентов в ущерб их качественному анализу, стремлении к 100% uptime при астрономических затратах или стимулировании быстрых исправлений, что убивает проактивную работу по устранению корневых причин проблем.
Проблемы интерпретации и ложные корреляции¶
Корректные данные могут привести к неверным выводам. Немецкий "маньяк", чью ДНК находили на местах преступлений, оказался женщиной с фабрики по производству ватных палочек, которыми брали пробы ДНК. Ускорение страницы может увеличить среднее время загрузки, потому что ею начинают пользоваться клиенты с медленным интернетом. В SRE это проявляется в "охоте" за метрикой, которая выглядит плохо (например, высокий CPU), в то время как реальная проблема скрыта в другом месте (latency, ошибки в зависимостях и т.п.).
SRE-практики для работы с метриками¶
- SLI/SLO/Error Budgets: Фундаментальная концепция, направляющая фокус на восприятие пользователя, а не на абстрактную "стабильность". Error Budget защищает от чрезмерной оптимизации надежности в ущерб развитию.
- Сбалансированные наборы метрик (Golden Signals): никогда не стоит смотреть на одну метрику. Используйте связки: трафик, ошибки, задержка, насыщение (USE-метод: Utilization, Saturation, Errors).
- Нецелевые метрики (Shadow Metrics): измеряйте побочные эффекты изменений. Развернули фикс для ускорения ответа API? Контролируйте потребление памяти и частоту вызовов зависимостей.
- Blameless Postmortem: после каждого инцидента исследуйте не "кто виноват?", а "как наши метрики, мониторинг и алертинг позволили этому произойти?".
- Здравый смысл и сомнение: технический лид или SRE должны задавать вопросы: "Что мы не измеряем?", "Какие долгосрочные последствия у этой оптимизации?", "Не оптимизируем ли мы шум?".
Три ключевых принципа 1. Метрики незаменимы, но это модель, а не реальность. 2. Любой KPI содержит скрытые риски - это острый инструмент, способный нанести системный вред. 3. Истории (как кобры или цинга) - лучший мнемонический якорь. Вспоминайте эти истории, когда работаете с данными.
Просто "метрика = число" - плохая цель. У хороших целей есть четыре составляющие:
- Сама цель: чего хотим достичь
- Исходные данные: где мы сейчас
- Тренд: текущий рост этой метрики (например за прошлый период)
- Ограничение по времени — на какой период цель
Есть два типа целей:
- когда надо достичь чего-то нового
- когда надо сохранить какой-то текущий показатель.
Метрика — отличный способ внедрения новых заметных изменений во всей организации. Для этого сначала определяшь нужную метрику, смотришь как каждая команда на нее влияет, делаешь ее публичной (в том числе сравнивая команды между собой), добавляешь побуждений (дашборды, письма, если метрика сильно изменилась) и, если есть возможность, задаешь некий уровень ниже которого нельзя опускать ее.
Раз в какой-то период нужно делать ревью по ситуации.
Дополнительно:¶
- The Tyranny of Metrics by Jerry Z. Muller или ее перевод на русский язык "Тирания показателей. Как одержимость цифрами угрожает образованию, здравоохранению, бизнесу и власти. Мюллер Джерри"
- "Русская модель управления", А. П. Прохоров
- "Understanding Variation" by Donald J. Wheeler или ее перевод на русский язык "Понимание вариабельности как ключ к устранению организационного хаоса" Дональда Уилера