Ssylka

Интеграция LLM и классического ML для поиска домашних животных

Для автоматизации поиска объявлений о пропавших и найденных домашних животных был создан пет-проект. Первоначально скрипт репостил объявления из VK в Telegram-канал. Позже к нему добавилась обработка сообщений из Telegram. Для фильтрации релевантных постов используется LLM, которая извлекает из текста объявления важные признаки в формате JSON. Эти признаки включают тип животного, породу, имя, местоположение, контакты и оценку релевантности объявления теме поиска.
Интеграция LLM и классического ML для поиска домашних животных
Изображение носит иллюстративный характер

Для выбора подходящей модели LLM проводилось тестирование различных вариантов, включая отечественные и зарубежные модели, а также опенсорсные. Было установлено, что Google Gemini 1.5 Flash обеспечивает оптимальное соотношение цены и качества для данной задачи. Полученные от LLM данные используются как входные признаки для обучения классической модели машинного обучения, в частности, Random Forest. Данная модель классифицирует сообщения на релевантные и нерелевантные, на основании этих признаков. Этот этап позволяет отсеять спам и нецелевые объявления.

Для предотвращения повторной публикации дубликатов объявлений используется алгоритм кластеризации. В результате, публикация объявлений автоматизирована и оптимизирована. Сейчас проект агрегирует сообщения из разных источников, выявляет важные признаки, отсеивает лишнее, кластеризует и публикует только релевантные объявления. В дальнейшем планируется разработка интерактивной карты с объявлениями и внедрение поиска по изображениям. Были отмечены некоторые технические нюансы при интеграции, такие как верификация JSON, необходимость использования GPU для LLM, экранирование символов, и оптимизация запросов к БД.


Новое на сайте

18921Подводное северное сияние: структура песчаных отмелей багамских островов на снимке с мкс 18920Умные очки FORM Smart Swim 2 с встроенным дисплеем радикально меняют тренировки пловцов 18919Эволюция киберугроз начала 2026 года: от злоупотребления доверием до критических... 18917Зачем первый король Англии приказал создать эту уникальную золотую драгоценность? 18916Действительно ли у кенгуру три вагины, а Исландия избавится от комаров только к октябрю... 18915Проверка эрудиции и факты о легендарном короле динозавров 18914Сотни ледниковых землетрясений обнаружены на разрушающейся кромке антарктического ледника... 18913Анализ архивных окаменелостей выявил новый вид гигантского гадрозавра в Нью-Мексико 18912Древняя азартная игра предлагает ключ к пониманию структуры манускрипта Войнича 18911Трансформация человеческого скелета и феномен добавочных костей 18910Насколько хорошо вы знаете географию и природу первого национального парка йеллоустоун? 18909Как стремление к механической объективности в ранней астрофотографии скрывало... 18908Почему обновленные тактики Transparent Tribe и Patchwork угрожают кибербезопасности в... 18907Почему священное озеро хилук в Канаде покрывается разноцветными пятнами из минералов?