Ssylka

Data Lake и Data Vault: новые горизонты хранения данных

«Лаборатория Касперского» перешла от классического DWH Кимбалла к гибридной модели, объединив Data Lake на базе Hadoop и Data Vault в MS SQL Server. Data Lake аккумулирует потоки данных из различных источников, включая real-time брокеры, внешние API и облака, используя подход Schema-on-Read.
Data Lake и Data Vault: новые горизонты хранения данных
Изображение носит иллюстративный характер

Data Vault был выбран для промежуточного слоя хранения из-за гибкости при изменениях схем данных, удобства интеграции и предсказуемости разработки. Он позволяет хранить исторические данные и отслеживать изменения, но возникают проблемы производительности из-за нормализации данных, сложности моделирования и необходимости автоматизации загрузки.

Для автоматизации загрузки был разработан фреймворк на базе Spark, позволяющий читать данные из источников по частям, преобразовывать их с помощью DataFrame API, обогащать техническими полями, и маппить атрибуты на поля Data Vault. Фреймворк генерирует SQL-запросы на основе шаблонов для вставки данных в таблицы, а также управляет метаданными для отслеживания инкрементов и обеспечения Data Lineage.

Результатом стало ускорение разработки витрин данных. При этом отмечается важность учёта специфики архитектуры и стека, а также необходимости взвешенного подхода к нормализации данных и выбору инструментов для автоматизации Data Vault.


Новое на сайте

7575Асфальтовая жизнь: второе рождение дорожного покрытия 7574Как превратить старую футболку в новый биопластик и одежду? 7573Может ли эпидемия Эболы в мегаполисе перерасти в катастрофу? 7572Небесный танец: Венера и суперсерп луны озаряют Колорадо 7571Скрытый Свет энергии: новое окно в мир Тёмных экситонов 7570Парадоксы зуда: почему расчёсывание лишь усугубляет аллергический дерматит 7569Могут ли грибы превращать пауков в зомби, обрекая их на мучительную смерть? 7568Марсианские пауки: загадка полярных гейзеров Красной планеты 7567Станет ли Глазго привлекательнее с введением туристического налога? 7566ИИ-голос: ElevenLabs наращивает инвестиции и расширяет функционал 7565Эволюция веб-дизайна: фокус на интерактивность и аутентичность 7564Смогут ли электрохимические ячейки стать холодильниками будущего? 7563Может ли квантовая магия обуздать хаос турбулентности? 7562Тёмная материя: квантовый взгляд на космос 7561Почему так приятно чесать и так вредно одновременно?