Платформа Selectel для inference: аватар среди ML-решений

Платформа Selectel для инференса ML-моделей выделяется среди стандартных решений, таких как деплой с Helm chart и Triton в Kubernetes, благодаря пяти ключевым элементам. Во-первых, используется Canary Deployment на основе Istio для плавного обновления моделей и тестирования новых версий на ограниченном трафике. Это позволяет минимизировать риски и обеспечить стабильную работу сервиса.
Платформа Selectel для inference: аватар среди ML-решений
Изображение носит иллюстративный характер

Во-вторых, платформа поддерживает автоматическое масштабирование, используя Prometheus-адаптер для отслеживания метрик и Horisontal Pod Autoscaler (HPA) для управления количеством реплик. Процесс автоскейлинга ускорен за счет кэширования весов моделей в NFS или S3, а также благодаря применению сжатия ZSTD для образов. Для GPU-ресурсов применяются технологии разделения, такие как MIG, TimeSlicing и MPS, что позволяет эффективно использовать имеющиеся мощности.

В-третьих, для создания сложных цепочек моделей платформа предлагает использование инференс-графов на основе Ray Serve. Этот подход позволяет объединять различные модели, запущенные на разных нодах, для решения комплексных задач, например, транскрибации аудио и генерации изображений. Несмотря на существующие сложности с распределением деплоев на worker-нодах, платформа обеспечивает гибкость в создании сложных ML-пайплайнов.

В-четвертых, платформа оптимизирует работу Triton Inference Server, применяя батчинг запросов для увеличения пропускной способности и использует инструменты Model Analyzer и Model Navigator для подбора оптимальных конфигураций и форматов моделей. Такой подход позволяет значительно ускорить инференс и снизить затраты. Наконец, пользовательский интерфейс платформы реализован на базе Grafana, Kiali и Jaeger, что обеспечивает удобное мониторинга и визуализацию метрик, трафика и логов без необходимости привлекать фронтенд-разработчиков.


Новое на сайте

19216Смертельный симбиоз спама и эксплойтов: как хакеры захватывают корпоративные сети за 11... 19215Как новые SaaS-платформы вроде Starkiller и 1Phish позволяют киберпреступникам незаметно... 19214Инженерия ужаса: как паровые машины и математика создали гений Эдгара Аллана по 19213Трансформация первой линии SOC: три шага к предиктивной безопасности 19212Архитектура смыслов в профессиональной редактуре 19211Манипуляция легитимными редиректами OAuth как вектор скрытых атак на правительственные... 19210Как активно эксплуатируемая уязвимость CVE-2026-21385 в графике Qualcomm привела к... 19209Как беспрецедентный бунт чернокожих женщин в суде Бостона разрушил планы рабовладельцев? 19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать...
Ссылка