Меню

Мультимодальный анализ каталогов с использованием LLM и VLM

Земпрониус

Традиционные методы каталогизации и сопоставления товаров часто оказываются недостаточными из-за неструктурированных и разнообразных описаний, а также из-за наличия важной информации на изображениях. Применение LLM (больших языковых моделей) и VLM (моделей зрения и языка) позволяет автоматизировать извлечение атрибутов из текста и изображений, таких как цвет, материал, размер и стиль, а также их сочетаний, даже если они неявно представлены в описаниях. Это улучшает точность сопоставления и классификации товаров.
Мультимодальный анализ каталогов с использованием LLM и VLM

Мультимодальный анализ каталогов с использованием LLM и VLM

Изображение носит иллюстративный характер

Ключевым этапом является извлечение атрибутов. LLM анализируют текстовые описания, выделяя существенные характеристики (бренд, модель, цвет) и даже синтетические атрибуты (стиль выреза, состояние товара). VLM анализируют изображения, выявляя особенности, которые сложно описать словами (форма, текстура, дизайн). Комбинация текстовых и визуальных данных обеспечивает более полное понимание товара.

После извлечения атрибутов LLM используются для сопоставления. Модели могут сравнивать товары на основе как явных сходств (один и тот же бренд и размер), так и неявных (экологичность). VLM улучшают процесс сопоставления, обрабатывая визуальные особенности, такие как цвет, узор и форма. Сопоставление основано на заданных параметрах, допускающих незначительные отклонения.

Применение LLM и VLM для обработки каталогов увеличивает точность сопоставления, обрабатывает разнообразные данные, но требует значительных вычислительных ресурсов и может быть медленным в реальном времени. Оптимизация производительности включает в себя использование меньших моделей, обученных на специализированных наборах данных, квантизацию, а также fine-tuning моделей для отдельных категорий. Важно учитывать языковые особенности и необходимость локального размещения моделей для больших объемов данных.

Источник: Squirrelfm

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Уязвимые обучающие приложения открывают доступ к облакам Fortune 500 для криптомайнинга

Почему ботнет SSHStalker успешно атакует Linux уязвимостями десятилетней давности?

Microsoft устранила шесть уязвимостей нулевого дня и анонсировала радикальные изменения в...

Эскалация цифровой угрозы: как IT-специалисты КНДР используют реальные личности для...

Скрытые потребности клиентов и преимущество наблюдения над опросами

Академическое фиаско Дороти Паркер в Лос-Анджелесе

Китайский шпионский фреймворк DKnife захватывает роутеры с 2019 года

Каким образом корейские детские хоры 1950-х годов превратили геополитику в музыку и...

Научная революция цвета в женской моде викторианской эпохи

Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ?

Как новая кампания DEADVAX использует файлы VHD для скрытой доставки трояна AsyncRAT?

Как новые китайские киберкампании взламывают госструктуры Юго-Восточной Азии?

Культ священного манго и закат эпохи хунвейбинов в маоистском Китае

Готовы ли вы к эре коэффициента адаптивности, когда IQ и EQ больше не гарантируют успех?

Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа

Меню

МенюЗакрыть