Ssylka

Data Lake и Data Vault: новые горизонты хранения данных

«Лаборатория Касперского» перешла от классического DWH Кимбалла к гибридной модели, объединив Data Lake на базе Hadoop и Data Vault в MS SQL Server. Data Lake аккумулирует потоки данных из различных источников, включая real-time брокеры, внешние API и облака, используя подход Schema-on-Read.
Data Lake и Data Vault: новые горизонты хранения данных
Изображение носит иллюстративный характер

Data Vault был выбран для промежуточного слоя хранения из-за гибкости при изменениях схем данных, удобства интеграции и предсказуемости разработки. Он позволяет хранить исторические данные и отслеживать изменения, но возникают проблемы производительности из-за нормализации данных, сложности моделирования и необходимости автоматизации загрузки.

Для автоматизации загрузки был разработан фреймворк на базе Spark, позволяющий читать данные из источников по частям, преобразовывать их с помощью DataFrame API, обогащать техническими полями, и маппить атрибуты на поля Data Vault. Фреймворк генерирует SQL-запросы на основе шаблонов для вставки данных в таблицы, а также управляет метаданными для отслеживания инкрементов и обеспечения Data Lineage.

Результатом стало ускорение разработки витрин данных. При этом отмечается важность учёта специфики архитектуры и стека, а также необходимости взвешенного подхода к нормализации данных и выбору инструментов для автоматизации Data Vault.


Новое на сайте

18884Знаете ли вы, что приматы появились до вымирания динозавров, и готовы ли проверить свои... 18883Четыреста колец в туманности эмбрион раскрыли тридцатилетнюю тайну звездной эволюции 18882Телескоп Джеймс Уэбб раскрыл тайны сверхэффективной звездной фабрики стрелец B2 18881Математический анализ истинного количества сквозных отверстий в человеческом теле 18880Почему даже элитные суперраспознаватели проваливают тесты на выявление дипфейков без... 18879Шесть легендарных древних городов и столиц империй, местоположение которых до сих пор... 18878Обзор самых необычных медицинских диагнозов и клинических случаев 2025 года 18877Критическая уязвимость CVE-2025-14847 в MongoDB открывает удаленный доступ к памяти... 18876Научное обоснование классификации солнца как желтого карлика класса G2V 18875Как безграничная преданность горным гориллам привела Дайан Фосси к жестокой гибели? 18874Новый родственник спинозавра из Таиланда меняет представления об эволюции хищников Азии 18873Как новая электрохимическая технология позволяет удвоить добычу водорода и снизить... 18872Могут ли ледяные гиганты Уран и Нептун на самом деле оказаться каменными? 18871Внедрение вредоносного кода в расширение Trust Wallet привело к хищению 7 миллионов... 18870Проверка клинического мышления на основе редких медицинских случаев 2025 года