Успех триатлета зависит от трех дисциплин: плавания, велогонки и бега. Однако исход соревнований часто определяет четвертая, невидимая дисциплина — питание. Самое дорогое оборудование бесполезно, если спортсмен питается неправильно. Аналогично, эффективность центра мониторинга кибербезопасности (SOC) опирается на три столпа: обнаружение, расследование и реагирование. Но его реальную производительность определяет четвертый элемент — качество данных.

Современные центры кибербезопасности активно инвестируют в передовые инструменты на базе искусственного интеллекта: системы обнаружения, платформы автоматического реагирования и аналитику на основе машинного обучения. При этом они продолжают снабжать эти сложные системы устаревшими, неполноценными данными. Это равносильно попытке пройти триатлон, подкрепляясь «пакетом чипсов и пивом». Такой подход не является устойчивой стратегией для достижения максимальной производительности.
Использование устаревших данных для современных систем ИИ порождает «информационный долг» — скрытую цену построения защиты на фундаменте, не предназначенном для машинного анализа. «Мы переживаем первую волну революции ИИ... Инструменты машинного обучения и генеративного ИИ ограничены качеством данных, которые они потребляют», — утверждает Грег Белл, директор по стратегии компании Corelight. Этот долг подрывает всю архитектуру безопасности.
Неполноценные унаследованные данные характеризуются несколькими критическими недостатками. К ним относятся разрозненные логи конечных точек, фиксирующие события, но упускающие поведенческий контекст, а также потоки данных, содержащие только оповещения, которые констатируют факт инцидента, но не раскрывают всей его истории. Изолированные источники не позволяют сопоставлять информацию между системами, а реактивные индикаторы срабатывают уже после нанесения ущерба. Наконец, неструктурированные форматы требуют значительной предварительной обработки, прежде чем ИИ сможет их проанализировать.
Пока защитники ограничены низкокачественными данными, злоумышленники эффективно используют искусственный интеллект для организации более быстрых, дешевых и точных атак. Возникает растущий разрыв в производительности. Защитники используют «тренировочный режим 1990-х годов», полагаясь на базовую информацию, в то время как атакующие применяют комплексную современную аналитику. Они автоматизируют разведку, снижают стоимость каждой атаки, персонализируют угрозы и быстро адаптируют свою тактику.
Решением проблемы является переход к архитектуре данных, готовой для ИИ («AI-ready»). Такие данные специально структурированы, обогащены и оптимизированы для анализа и автоматизации. Они захватывают полный контекст каждого события, включают сетевую телеметрию для получения видимости до этапа шифрования, содержат исчерпывающие метаданные для выявления поведенческих паттернов и используют структурированные форматы для немедленной обработки искусственным интеллектом.
Данные, готовые для ИИ, питают три важнейших компонента безопасности. Во-первых, это обнаружение угроз, основанное на сетевых доказательствах экспертного уровня в локальных, гибридных и мультиоблачных средах. Во-вторых, это рабочие процессы ИИ, предоставляющие аналитикам экспертные сценарии, анализ вредоносных нагрузок, исторический контекст и сводки на уровне сессий. В-третьих, это интеграция с экосистемой, обеспечивающая бесперебойную передачу данных в существующие инструменты SOC, такие как SIEM, SOAR, XDR и озера данных.
Внедрение данных, готовых для ИИ, создает кумулятивный положительный эффект во всех операциях безопасности. Команды SOC получают возможность сопоставлять необычные паттерны в эфемерных облачных средах, расширяют охват для обнаружения новых, скрытых угроз и атак «нулевого дня», а также ускоряют разработку новых методов детекции. Аналитики могут быстро восстанавливать хронологию инцидентов без разбора необработанных логов и получать краткие описания подозрительных действий на естественном языке, что позволяет сосредоточиться на приоритетных угрозах.
«Высококачественные, богатые контекстом данные — это «чистое топливо», необходимое ИИ для полного раскрытия своего потенциала. Модели, лишенные качественных данных, неизбежно разочаруют», — подчеркивает Грег Белл. Качество данных становится решающим фактором в гонке вооружений между атакующими и защитниками.
Проблема заключается не в замене существующих инструментов, а в обеспечении их правильным «топливом». Компания Corelight специализируется на предоставлении телеметрии экспертного уровня, которая поддерживает рабочие процессы SOC, управляет обнаружением и обеспечивает функционирование всей экосистемы безопасности. Крупнейшие большие языковые модели (LLM) уже обучены на отраслевых стандартах моделей данных безопасности, аналогичных тем, что предоставляет Corelight (www.corelight.com).

Изображение носит иллюстративный характер
Современные центры кибербезопасности активно инвестируют в передовые инструменты на базе искусственного интеллекта: системы обнаружения, платформы автоматического реагирования и аналитику на основе машинного обучения. При этом они продолжают снабжать эти сложные системы устаревшими, неполноценными данными. Это равносильно попытке пройти триатлон, подкрепляясь «пакетом чипсов и пивом». Такой подход не является устойчивой стратегией для достижения максимальной производительности.
Использование устаревших данных для современных систем ИИ порождает «информационный долг» — скрытую цену построения защиты на фундаменте, не предназначенном для машинного анализа. «Мы переживаем первую волну революции ИИ... Инструменты машинного обучения и генеративного ИИ ограничены качеством данных, которые они потребляют», — утверждает Грег Белл, директор по стратегии компании Corelight. Этот долг подрывает всю архитектуру безопасности.
Неполноценные унаследованные данные характеризуются несколькими критическими недостатками. К ним относятся разрозненные логи конечных точек, фиксирующие события, но упускающие поведенческий контекст, а также потоки данных, содержащие только оповещения, которые констатируют факт инцидента, но не раскрывают всей его истории. Изолированные источники не позволяют сопоставлять информацию между системами, а реактивные индикаторы срабатывают уже после нанесения ущерба. Наконец, неструктурированные форматы требуют значительной предварительной обработки, прежде чем ИИ сможет их проанализировать.
Пока защитники ограничены низкокачественными данными, злоумышленники эффективно используют искусственный интеллект для организации более быстрых, дешевых и точных атак. Возникает растущий разрыв в производительности. Защитники используют «тренировочный режим 1990-х годов», полагаясь на базовую информацию, в то время как атакующие применяют комплексную современную аналитику. Они автоматизируют разведку, снижают стоимость каждой атаки, персонализируют угрозы и быстро адаптируют свою тактику.
Решением проблемы является переход к архитектуре данных, готовой для ИИ («AI-ready»). Такие данные специально структурированы, обогащены и оптимизированы для анализа и автоматизации. Они захватывают полный контекст каждого события, включают сетевую телеметрию для получения видимости до этапа шифрования, содержат исчерпывающие метаданные для выявления поведенческих паттернов и используют структурированные форматы для немедленной обработки искусственным интеллектом.
Данные, готовые для ИИ, питают три важнейших компонента безопасности. Во-первых, это обнаружение угроз, основанное на сетевых доказательствах экспертного уровня в локальных, гибридных и мультиоблачных средах. Во-вторых, это рабочие процессы ИИ, предоставляющие аналитикам экспертные сценарии, анализ вредоносных нагрузок, исторический контекст и сводки на уровне сессий. В-третьих, это интеграция с экосистемой, обеспечивающая бесперебойную передачу данных в существующие инструменты SOC, такие как SIEM, SOAR, XDR и озера данных.
Внедрение данных, готовых для ИИ, создает кумулятивный положительный эффект во всех операциях безопасности. Команды SOC получают возможность сопоставлять необычные паттерны в эфемерных облачных средах, расширяют охват для обнаружения новых, скрытых угроз и атак «нулевого дня», а также ускоряют разработку новых методов детекции. Аналитики могут быстро восстанавливать хронологию инцидентов без разбора необработанных логов и получать краткие описания подозрительных действий на естественном языке, что позволяет сосредоточиться на приоритетных угрозах.
«Высококачественные, богатые контекстом данные — это «чистое топливо», необходимое ИИ для полного раскрытия своего потенциала. Модели, лишенные качественных данных, неизбежно разочаруют», — подчеркивает Грег Белл. Качество данных становится решающим фактором в гонке вооружений между атакующими и защитниками.
Проблема заключается не в замене существующих инструментов, а в обеспечении их правильным «топливом». Компания Corelight специализируется на предоставлении телеметрии экспертного уровня, которая поддерживает рабочие процессы SOC, управляет обнаружением и обеспечивает функционирование всей экосистемы безопасности. Крупнейшие большие языковые модели (LLM) уже обучены на отраслевых стандартах моделей данных безопасности, аналогичных тем, что предоставляет Corelight (www.corelight.com).