Data Lake и Data Vault: новые горизонты хранения данных

«Лаборатория Касперского» перешла от классического DWH Кимбалла к гибридной модели, объединив Data Lake на базе Hadoop и Data Vault в MS SQL Server. Data Lake аккумулирует потоки данных из различных источников, включая real-time брокеры, внешние API и облака, используя подход Schema-on-Read.
Data Lake и Data Vault: новые горизонты хранения данных
Изображение носит иллюстративный характер

Data Vault был выбран для промежуточного слоя хранения из-за гибкости при изменениях схем данных, удобства интеграции и предсказуемости разработки. Он позволяет хранить исторические данные и отслеживать изменения, но возникают проблемы производительности из-за нормализации данных, сложности моделирования и необходимости автоматизации загрузки.

Для автоматизации загрузки был разработан фреймворк на базе Spark, позволяющий читать данные из источников по частям, преобразовывать их с помощью DataFrame API, обогащать техническими полями, и маппить атрибуты на поля Data Vault. Фреймворк генерирует SQL-запросы на основе шаблонов для вставки данных в таблицы, а также управляет метаданными для отслеживания инкрементов и обеспечения Data Lineage.

Результатом стало ускорение разработки витрин данных. При этом отмечается важность учёта специфики архитектуры и стека, а также необходимости взвешенного подхода к нормализации данных и выбору инструментов для автоматизации Data Vault.


Новое на сайте

20099Нейронаука одиночества: есть ли в мозге клетки, которые страдают? 20098Почему глаза так долго привыкают к темноте — и что за этим стоит? 20097Мыть или не мыть рис: что реально происходит в кастрюле 20095Мне не предоставили текст для написания статьи. 20094Мыть или не мыть рис: что реально происходит в кастрюле 20092Почему глаза так долго привыкают к темноте — и что за этим стоит? 20087Игла сквозь череп: медицинский случай с рыбой-иглой и задачей, которую хирурги решали... 20085Живая квантовая сеть в Нью-Йорке: как Qunnect пытается построить интернет, который нельзя... 20084Живые обои: дрожжи, алгинат и 3D-принтер вместо поклейки 20083ИИ-агент уничтожил базу данных за 9 секунд и сам же признался в этом 20082CVE-2026-5027: почему уязвимость в Langflow уже активно эксплуатируется хакерами? 20081GreatXML: новый обход BitLocker через Recovery Partition 20080Июньский Patch Tuesday 2026: 206 уязвимостей, три zero-day и неуправляемый ИИ в поиске дыр
Ссылка