Меню

Data Lake и Data Vault: новые горизонты хранения данных

Мирабель

«Лаборатория Касперского» перешла от классического DWH Кимбалла к гибридной модели, объединив Data Lake на базе Hadoop и Data Vault в MS SQL Server. Data Lake аккумулирует потоки данных из различных источников, включая real-time брокеры, внешние API и облака, используя подход Schema-on-Read.
Data Lake и Data Vault: новые горизонты хранения данных

Data Lake и Data Vault: новые горизонты хранения данных

Изображение носит иллюстративный характер

Data Vault был выбран для промежуточного слоя хранения из-за гибкости при изменениях схем данных, удобства интеграции и предсказуемости разработки. Он позволяет хранить исторические данные и отслеживать изменения, но возникают проблемы производительности из-за нормализации данных, сложности моделирования и необходимости автоматизации загрузки.

Для автоматизации загрузки был разработан фреймворк на базе Spark, позволяющий читать данные из источников по частям, преобразовывать их с помощью DataFrame API, обогащать техническими полями, и маппить атрибуты на поля Data Vault. Фреймворк генерирует SQL-запросы на основе шаблонов для вставки данных в таблицы, а также управляет метаданными для отслеживания инкрементов и обеспечения Data Lineage.

Результатом стало ускорение разработки витрин данных. При этом отмечается важность учёта специфики архитектуры и стека, а также необходимости взвешенного подхода к нормализации данных и выбору инструментов для автоматизации Data Vault.

Источник: Kilinsky_MA

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Нейронаука одиночества: есть ли в мозге клетки, которые страдают?

Почему глаза так долго привыкают к темноте — и что за этим стоит?

Мыть или не мыть рис: что реально происходит в кастрюле

Мне не предоставили текст для написания статьи.

Мыть или не мыть рис: что реально происходит в кастрюле

Почему глаза так долго привыкают к темноте — и что за этим стоит?

Игла сквозь череп: медицинский случай с рыбой-иглой и задачей, которую хирурги решали...

Живая квантовая сеть в Нью-Йорке: как Qunnect пытается построить интернет, который нельзя...

Живые обои: дрожжи, алгинат и 3D-принтер вместо поклейки

ИИ-агент уничтожил базу данных за 9 секунд и сам же признался в этом

CVE-2026-5027: почему уязвимость в Langflow уже активно эксплуатируется хакерами?

GreatXML: новый обход BitLocker через Recovery Partition

Июньский Patch Tuesday 2026: 206 уязвимостей, три zero-day и неуправляемый ИИ в поиске дыр

Меню

МенюЗакрыть