Платформа Selectel для inference: аватар среди ML-решений

Платформа Selectel для инференса ML-моделей выделяется среди стандартных решений, таких как деплой с Helm chart и Triton в Kubernetes, благодаря пяти ключевым элементам. Во-первых, используется Canary Deployment на основе Istio для плавного обновления моделей и тестирования новых версий на ограниченном трафике. Это позволяет минимизировать риски и обеспечить стабильную работу сервиса.
Платформа Selectel для inference: аватар среди ML-решений
Изображение носит иллюстративный характер

Во-вторых, платформа поддерживает автоматическое масштабирование, используя Prometheus-адаптер для отслеживания метрик и Horisontal Pod Autoscaler (HPA) для управления количеством реплик. Процесс автоскейлинга ускорен за счет кэширования весов моделей в NFS или S3, а также благодаря применению сжатия ZSTD для образов. Для GPU-ресурсов применяются технологии разделения, такие как MIG, TimeSlicing и MPS, что позволяет эффективно использовать имеющиеся мощности.

В-третьих, для создания сложных цепочек моделей платформа предлагает использование инференс-графов на основе Ray Serve. Этот подход позволяет объединять различные модели, запущенные на разных нодах, для решения комплексных задач, например, транскрибации аудио и генерации изображений. Несмотря на существующие сложности с распределением деплоев на worker-нодах, платформа обеспечивает гибкость в создании сложных ML-пайплайнов.

В-четвертых, платформа оптимизирует работу Triton Inference Server, применяя батчинг запросов для увеличения пропускной способности и использует инструменты Model Analyzer и Model Navigator для подбора оптимальных конфигураций и форматов моделей. Такой подход позволяет значительно ускорить инференс и снизить затраты. Наконец, пользовательский интерфейс платформы реализован на базе Grafana, Kiali и Jaeger, что обеспечивает удобное мониторинга и визуализацию метрик, трафика и логов без необходимости привлекать фронтенд-разработчиков.


Новое на сайте

19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного... 19507Девять уязвимостей CrackArmor позволяют получить root-доступ через модуль безопасности...
Ссылка