Ssylka

Платформа Selectel для inference: аватар среди ML-решений

Платформа Selectel для инференса ML-моделей выделяется среди стандартных решений, таких как деплой с Helm chart и Triton в Kubernetes, благодаря пяти ключевым элементам. Во-первых, используется Canary Deployment на основе Istio для плавного обновления моделей и тестирования новых версий на ограниченном трафике. Это позволяет минимизировать риски и обеспечить стабильную работу сервиса.
Платформа Selectel для inference: аватар среди ML-решений
Изображение носит иллюстративный характер

Во-вторых, платформа поддерживает автоматическое масштабирование, используя Prometheus-адаптер для отслеживания метрик и Horisontal Pod Autoscaler (HPA) для управления количеством реплик. Процесс автоскейлинга ускорен за счет кэширования весов моделей в NFS или S3, а также благодаря применению сжатия ZSTD для образов. Для GPU-ресурсов применяются технологии разделения, такие как MIG, TimeSlicing и MPS, что позволяет эффективно использовать имеющиеся мощности.

В-третьих, для создания сложных цепочек моделей платформа предлагает использование инференс-графов на основе Ray Serve. Этот подход позволяет объединять различные модели, запущенные на разных нодах, для решения комплексных задач, например, транскрибации аудио и генерации изображений. Несмотря на существующие сложности с распределением деплоев на worker-нодах, платформа обеспечивает гибкость в создании сложных ML-пайплайнов.

В-четвертых, платформа оптимизирует работу Triton Inference Server, применяя батчинг запросов для увеличения пропускной способности и использует инструменты Model Analyzer и Model Navigator для подбора оптимальных конфигураций и форматов моделей. Такой подход позволяет значительно ускорить инференс и снизить затраты. Наконец, пользовательский интерфейс платформы реализован на базе Grafana, Kiali и Jaeger, что обеспечивает удобное мониторинга и визуализацию метрик, трафика и логов без необходимости привлекать фронтенд-разработчиков.


Новое на сайте

18674Индия вводит жесткую привязку мессенджеров к активным SIM-картам для борьбы с... 18673Почему вернувшаяся кампания GlassWorm угрожает разработчикам через 24 вредоносных... 18672Способен ли простой текстовый промпт скрыть вредоносное по в репозитории от проверки... 18671Уникальная операция по захвату северокорейских хакеров Lazarus в виртуальную ловушку в... 18670Уникальный погребальный ритуал времен царства керма обнаружен в суданской пустыне Байуда 18668Чем уникальна самая высокая «холодная» суперлуна декабря 2025 года? 18667Декабрьское обновление безопасности Android устраняет 107 уязвимостей и две угрозы... 18666Почему мы отрицаем реальность, когда искусственный интеллект уже лишил нас когнитивного... 18665Химический след Тейи раскрыл тайну происхождения луны в ранней солнечной системе 18664Раскрывает ли извергающаяся межзвездная комета 3I/ATLAS химические тайны древней... 18663Масштабная кампания ShadyPanda заразила миллионы браузеров через официальные обновления 18662Как помидорные бои и персонажи Pixar помогают лидерам превратить корпоративную культуру 18661Как астероид 2024 YR4 стал первой исторической проверкой системы планетарной защиты и... 18660Агентные ИИ-браузеры как троянский конь новой эры кибербезопасности