Ssylka

Интеграция LLM и классического ML для поиска домашних животных

Для автоматизации поиска объявлений о пропавших и найденных домашних животных был создан пет-проект. Первоначально скрипт репостил объявления из VK в Telegram-канал. Позже к нему добавилась обработка сообщений из Telegram. Для фильтрации релевантных постов используется LLM, которая извлекает из текста объявления важные признаки в формате JSON. Эти признаки включают тип животного, породу, имя, местоположение, контакты и оценку релевантности объявления теме поиска.
Интеграция LLM и классического ML для поиска домашних животных
Изображение носит иллюстративный характер

Для выбора подходящей модели LLM проводилось тестирование различных вариантов, включая отечественные и зарубежные модели, а также опенсорсные. Было установлено, что Google Gemini 1.5 Flash обеспечивает оптимальное соотношение цены и качества для данной задачи. Полученные от LLM данные используются как входные признаки для обучения классической модели машинного обучения, в частности, Random Forest. Данная модель классифицирует сообщения на релевантные и нерелевантные, на основании этих признаков. Этот этап позволяет отсеять спам и нецелевые объявления.

Для предотвращения повторной публикации дубликатов объявлений используется алгоритм кластеризации. В результате, публикация объявлений автоматизирована и оптимизирована. Сейчас проект агрегирует сообщения из разных источников, выявляет важные признаки, отсеивает лишнее, кластеризует и публикует только релевантные объявления. В дальнейшем планируется разработка интерактивной карты с объявлениями и внедрение поиска по изображениям. Были отмечены некоторые технические нюансы при интеграции, такие как верификация JSON, необходимость использования GPU для LLM, экранирование символов, и оптимизация запросов к БД.


Новое на сайте

18884Знаете ли вы, что приматы появились до вымирания динозавров, и готовы ли проверить свои... 18883Четыреста колец в туманности эмбрион раскрыли тридцатилетнюю тайну звездной эволюции 18882Телескоп Джеймс Уэбб раскрыл тайны сверхэффективной звездной фабрики стрелец B2 18881Математический анализ истинного количества сквозных отверстий в человеческом теле 18880Почему даже элитные суперраспознаватели проваливают тесты на выявление дипфейков без... 18879Шесть легендарных древних городов и столиц империй, местоположение которых до сих пор... 18878Обзор самых необычных медицинских диагнозов и клинических случаев 2025 года 18877Критическая уязвимость CVE-2025-14847 в MongoDB открывает удаленный доступ к памяти... 18876Научное обоснование классификации солнца как желтого карлика класса G2V 18875Как безграничная преданность горным гориллам привела Дайан Фосси к жестокой гибели? 18874Новый родственник спинозавра из Таиланда меняет представления об эволюции хищников Азии 18873Как новая электрохимическая технология позволяет удвоить добычу водорода и снизить... 18872Могут ли ледяные гиганты Уран и Нептун на самом деле оказаться каменными? 18871Внедрение вредоносного кода в расширение Trust Wallet привело к хищению 7 миллионов... 18870Проверка клинического мышления на основе редких медицинских случаев 2025 года