В погоне за высокими показателями надежности, выраженными в процентах успешных операций, компании часто прибегают к манипуляциям с метриками, создавая иллюзию благополучия, а не реальную надежность. Существует несколько распространенных способов исказить картину, и вот некоторые из них.
Первый способ заключается в сокращении количества отслеживаемых индикаторов. Чем меньше метрик, тем меньше вероятность, что хоть одна из них выйдет за рамки целевых показателей. Второй метод – выбор недостижимых SLO (целевых показателей уровня обслуживания) для индикаторов, которые на первый взгляд выглядят впечатляюще, но на самом деле никогда не достигаются.
Следующий подход – это увеличение окна усреднения метрик. Краткосрочные всплески, которые могут ухудшить общую статистику, при усреднении за более длительный период становятся менее заметными, что позволяет скрыть реальные проблемы. Использование низких перцентилей вместо максимальных значений или средних значений в метриках задержки тоже может создать ложное впечатление о высокой производительности.
Наконец, самым коварным способом является измерение метрик в таких точках системы, где проблемы не будут видны. Это может означать измерение внутри приложения, в то время как реальные проблемы возникают на границе с пользователем. В конечном итоге, важно помнить, что цифры надежности не всегда соответствуют действительности. Фокусируйтесь на реальной надежности, а не на красивых отчетах, и помните, что метрики могут обманывать.
Изображение носит иллюстративный характер
Первый способ заключается в сокращении количества отслеживаемых индикаторов. Чем меньше метрик, тем меньше вероятность, что хоть одна из них выйдет за рамки целевых показателей. Второй метод – выбор недостижимых SLO (целевых показателей уровня обслуживания) для индикаторов, которые на первый взгляд выглядят впечатляюще, но на самом деле никогда не достигаются.
Следующий подход – это увеличение окна усреднения метрик. Краткосрочные всплески, которые могут ухудшить общую статистику, при усреднении за более длительный период становятся менее заметными, что позволяет скрыть реальные проблемы. Использование низких перцентилей вместо максимальных значений или средних значений в метриках задержки тоже может создать ложное впечатление о высокой производительности.
Наконец, самым коварным способом является измерение метрик в таких точках системы, где проблемы не будут видны. Это может означать измерение внутри приложения, в то время как реальные проблемы возникают на границе с пользователем. В конечном итоге, важно помнить, что цифры надежности не всегда соответствуют действительности. Фокусируйтесь на реальной надежности, а не на красивых отчетах, и помните, что метрики могут обманывать.