Интеграция LLM и классического ML для поиска домашних животных

Для автоматизации поиска объявлений о пропавших и найденных домашних животных был создан пет-проект. Первоначально скрипт репостил объявления из VK в Telegram-канал. Позже к нему добавилась обработка сообщений из Telegram. Для фильтрации релевантных постов используется LLM, которая извлекает из текста объявления важные признаки в формате JSON. Эти признаки включают тип животного, породу, имя, местоположение, контакты и оценку релевантности объявления теме поиска.
Интеграция LLM и классического ML для поиска домашних животных
Изображение носит иллюстративный характер

Для выбора подходящей модели LLM проводилось тестирование различных вариантов, включая отечественные и зарубежные модели, а также опенсорсные. Было установлено, что Google Gemini 1.5 Flash обеспечивает оптимальное соотношение цены и качества для данной задачи. Полученные от LLM данные используются как входные признаки для обучения классической модели машинного обучения, в частности, Random Forest. Данная модель классифицирует сообщения на релевантные и нерелевантные, на основании этих признаков. Этот этап позволяет отсеять спам и нецелевые объявления.

Для предотвращения повторной публикации дубликатов объявлений используется алгоритм кластеризации. В результате, публикация объявлений автоматизирована и оптимизирована. Сейчас проект агрегирует сообщения из разных источников, выявляет важные признаки, отсеивает лишнее, кластеризует и публикует только релевантные объявления. В дальнейшем планируется разработка интерактивной карты с объявлениями и внедрение поиска по изображениям. Были отмечены некоторые технические нюансы при интеграции, такие как верификация JSON, необходимость использования GPU для LLM, экранирование символов, и оптимизация запросов к БД.


Новое на сайте

19987Китайские хакерские группы атакуют правительства и журналистов по всему миру 19986Как 30 000 аккаунтов Facebook оказались в руках вьетнамских хакеров? 19985LofyGang вернулась: как бразильские хакеры охотятся на геймеров через поддельные читы 19984Автономная проверка защиты: как не отстать от ИИ-атак 19983Взлом Trellix: хакеры добрались до исходного кода одной из ведущих компаний по... 19982Почему почти 3000 монет в норвежском поле перевернули представление о викингах? 19981Как поддельная CAPTCHA опустошает ваш счёт и крадёт криптовалюту? 19980Слежка за каждым шагом: как ИИ превращает государство в машину тотального контроля 19979Как хакеры грабят компании через звонок в «техподдержку» 19978Почему именно Нью-Йорк стал самым уязвимым городом восточного побережья перед... 19977Как одна команда git push открывала доступ к миллионам репозиториев 19976Зачем древние народы убивали ножами и мечами: оружие как основа власти 19975Как Python-бэкдор DEEPDOOR крадёт ваши облачные пароли незаметно? 19974Послание в бутылке: математика невозможного 19973Почему ИИ-инфраструктура стала новой целью хакеров быстрее, чем ждали все?
Ссылка