Мультимодальный анализ каталогов с использованием LLM и VLM

Традиционные методы каталогизации и сопоставления товаров часто оказываются недостаточными из-за неструктурированных и разнообразных описаний, а также из-за наличия важной информации на изображениях. Применение LLM (больших языковых моделей) и VLM (моделей зрения и языка) позволяет автоматизировать извлечение атрибутов из текста и изображений, таких как цвет, материал, размер и стиль, а также их сочетаний, даже если они неявно представлены в описаниях. Это улучшает точность сопоставления и классификации товаров.
Мультимодальный анализ каталогов с использованием LLM и VLM
Изображение носит иллюстративный характер

Ключевым этапом является извлечение атрибутов. LLM анализируют текстовые описания, выделяя существенные характеристики (бренд, модель, цвет) и даже синтетические атрибуты (стиль выреза, состояние товара). VLM анализируют изображения, выявляя особенности, которые сложно описать словами (форма, текстура, дизайн). Комбинация текстовых и визуальных данных обеспечивает более полное понимание товара.

После извлечения атрибутов LLM используются для сопоставления. Модели могут сравнивать товары на основе как явных сходств (один и тот же бренд и размер), так и неявных (экологичность). VLM улучшают процесс сопоставления, обрабатывая визуальные особенности, такие как цвет, узор и форма. Сопоставление основано на заданных параметрах, допускающих незначительные отклонения.

Применение LLM и VLM для обработки каталогов увеличивает точность сопоставления, обрабатывает разнообразные данные, но требует значительных вычислительных ресурсов и может быть медленным в реальном времени. Оптимизация производительности включает в себя использование меньших моделей, обученных на специализированных наборах данных, квантизацию, а также fine-tuning моделей для отдельных категорий. Важно учитывать языковые особенности и необходимость локального размещения моделей для больших объемов данных.


Новое на сайте

19209Как беспрецедентный бунт чернокожих женщин в суде Бостона разрушил планы рабовладельцев? 19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать... 19201Как Google разрушил глобальную шпионскую сеть UNC2814, охватившую правительства 70 стран... 19200Как простое открытие репозитория в Claude Code позволяет хакерам получить полный контроль... 19199Зачем киберсиндикат SLH платит женщинам до 1000 долларов за один телефонный звонок в... 19198Устранение слепых зон SOC: переход к доказательной сортировке угроз для защиты бизнеса 19197Скрытые бэкдоры в цепочках поставок по: атаки через вредоносные пакеты NuGet и npm
Ссылка