Переход от пакетной обработки к аналитике в реальном времени сталкивает с выбором: либо сложная лямбда-архитектура, либо поиск универсального решения. Традиционные колоночные хранилища часто требуют перестроек при каждом обновлении данных, а гибридные форматы могут привести к привязке к конкретному поставщику. Iceberg – открытый табличный формат, представляет собой альтернативу, позволяя работать в различных средах с time travel.
Проблема миграции данных и CDC в Iceberg подтолкнула к созданию собственного CLI-инструмента Ora2Iceberg. Он обеспечивает прямую выгрузку данных из Oracle в любую открытую аналитическую среду. Этот инструмент решает задачу переноса данных для тех сценариев, где данные неизменны или могут быть извлечены повторно с фильтром по дате обновления.
Производительность Iceberg была протестирована на примере переноса данных из Oracle в S3, с последующей работой через Oracle, PostgreSQL, Athena и Snowflake. Результаты показали, что Snowflake и Athena демонстрируют стабильную линейную производительность, а PostgreSQL и Oracle «проседают» при увеличении объёма данных.
В дальнейшем планируется расширение поддержки каталогов, тестирование Presto, Trino и DuckDB, а также реализация near real-time CDC из Oracle в Iceberg. Цель – создать унифицированную аналитическую экосистему, подходящую для краткосрочной и долгосрочной аналитики.
Изображение носит иллюстративный характер
Проблема миграции данных и CDC в Iceberg подтолкнула к созданию собственного CLI-инструмента Ora2Iceberg. Он обеспечивает прямую выгрузку данных из Oracle в любую открытую аналитическую среду. Этот инструмент решает задачу переноса данных для тех сценариев, где данные неизменны или могут быть извлечены повторно с фильтром по дате обновления.
Производительность Iceberg была протестирована на примере переноса данных из Oracle в S3, с последующей работой через Oracle, PostgreSQL, Athena и Snowflake. Результаты показали, что Snowflake и Athena демонстрируют стабильную линейную производительность, а PostgreSQL и Oracle «проседают» при увеличении объёма данных.
В дальнейшем планируется расширение поддержки каталогов, тестирование Presto, Trino и DuckDB, а также реализация near real-time CDC из Oracle в Iceberg. Цель – создать унифицированную аналитическую экосистему, подходящую для краткосрочной и долгосрочной аналитики.