Ssylka

Интеграция LLM и классического ML для поиска домашних животных

Для автоматизации поиска объявлений о пропавших и найденных домашних животных был создан пет-проект. Первоначально скрипт репостил объявления из VK в Telegram-канал. Позже к нему добавилась обработка сообщений из Telegram. Для фильтрации релевантных постов используется LLM, которая извлекает из текста объявления важные признаки в формате JSON. Эти признаки включают тип животного, породу, имя, местоположение, контакты и оценку релевантности объявления теме поиска.
Интеграция LLM и классического ML для поиска домашних животных
Изображение носит иллюстративный характер

Для выбора подходящей модели LLM проводилось тестирование различных вариантов, включая отечественные и зарубежные модели, а также опенсорсные. Было установлено, что Google Gemini 1.5 Flash обеспечивает оптимальное соотношение цены и качества для данной задачи. Полученные от LLM данные используются как входные признаки для обучения классической модели машинного обучения, в частности, Random Forest. Данная модель классифицирует сообщения на релевантные и нерелевантные, на основании этих признаков. Этот этап позволяет отсеять спам и нецелевые объявления.

Для предотвращения повторной публикации дубликатов объявлений используется алгоритм кластеризации. В результате, публикация объявлений автоматизирована и оптимизирована. Сейчас проект агрегирует сообщения из разных источников, выявляет важные признаки, отсеивает лишнее, кластеризует и публикует только релевантные объявления. В дальнейшем планируется разработка интерактивной карты с объявлениями и внедрение поиска по изображениям. Были отмечены некоторые технические нюансы при интеграции, такие как верификация JSON, необходимость использования GPU для LLM, экранирование символов, и оптимизация запросов к БД.


Новое на сайте

18780Космическая бабочка региона Idaeus Fossae как доказательство водного прошлого Марса 18779Феноменальный взлет стартапа Mercor до оценки в 10 миллиардов долларов за счет... 18778Внедрение защиты данных и конфиденциальности непосредственно в процесс написания... 18777Критический обход аутентификации SAML SSO в устройствах Fortinet FortiGate под активной... 18776Критическая уязвимость React2Shell открывает глобальный доступ к Linux-серверам 18775Анализ старейшей лодки Скандинавии выявил отпечаток пальца и происхождение захватчиков 18774Наследие Атакамского космологического телескопа и подтверждение главного кризиса... 18773Популярное расширение Urban VPN тайно похищает переписки миллионов пользователей с ИИ 18772Зачем древние жители Швеции утопили собаку с костяным кинжалом в ходе загадочного ритуала... 18771Почему концепция «троянского коня» является ключом к успешному захвату внимания в... 18770Критические уязвимости FreePBX открывают возможность удаленного выполнения кода 18769Является ли «маленькая нога» неизвестным предком человека и какие небесные тела... 18768Оправдывает ли Xiaomi Smart Band 10 звание лучшего бюджетного трекера для новичков 18767Как группировка ShadyPanda использовала доверенные расширения для компрометации 4,3... 18766Межзвездная комета 3I/ATLAS под прицелом глобальной сети наблюдателей