Ssylka

Интеграция LLM и классического ML для поиска домашних животных

Для автоматизации поиска объявлений о пропавших и найденных домашних животных был создан пет-проект. Первоначально скрипт репостил объявления из VK в Telegram-канал. Позже к нему добавилась обработка сообщений из Telegram. Для фильтрации релевантных постов используется LLM, которая извлекает из текста объявления важные признаки в формате JSON. Эти признаки включают тип животного, породу, имя, местоположение, контакты и оценку релевантности объявления теме поиска.
Интеграция LLM и классического ML для поиска домашних животных
Изображение носит иллюстративный характер

Для выбора подходящей модели LLM проводилось тестирование различных вариантов, включая отечественные и зарубежные модели, а также опенсорсные. Было установлено, что Google Gemini 1.5 Flash обеспечивает оптимальное соотношение цены и качества для данной задачи. Полученные от LLM данные используются как входные признаки для обучения классической модели машинного обучения, в частности, Random Forest. Данная модель классифицирует сообщения на релевантные и нерелевантные, на основании этих признаков. Этот этап позволяет отсеять спам и нецелевые объявления.

Для предотвращения повторной публикации дубликатов объявлений используется алгоритм кластеризации. В результате, публикация объявлений автоматизирована и оптимизирована. Сейчас проект агрегирует сообщения из разных источников, выявляет важные признаки, отсеивает лишнее, кластеризует и публикует только релевантные объявления. В дальнейшем планируется разработка интерактивной карты с объявлениями и внедрение поиска по изображениям. Были отмечены некоторые технические нюансы при интеграции, такие как верификация JSON, необходимость использования GPU для LLM, экранирование символов, и оптимизация запросов к БД.


Новое на сайте

18855Как обнаружение скелета Люси возрастом 3,2 миллиона лет изменило понимание человеческой... 18854Действительно ли первая рождественская ночь была тихой, или Иисус родился в эпоху... 18853Первая в истории потенциальная суперкилоновая: открытие уникального гибридного взрыва... 18852Откуда взялась необъяснимая планета с атмосферой из сажи и алмазов, которую обнаружил... 18851Станет ли интернет зомби-апокалипсисом и почему доверие превращается в самую дорогую... 18850Оккультная одержимость Уильяма Батлера Йейтса как главный источник его поэтического... 18849Лучшие небесные объекты для зимних наблюдений в бинокль в сезоне 2025–2026 годов 18848Революция в палеогенетике и чтение днк из древних пещерных отложений 18847Анализ крови вместо скальпеля: потенциал и риски мультираковой ранней диагностики 18846Почему непроходимость уретры придала мочевому пузырю пациента из Нигерии форму... 18845Комиссия по ценным бумагам США пресекла мошенническую схему с криптовалютами и... 18844Италия оштрафовала Apple за злоупотребление доминирующим положением через систему... 18843Как новый беспроводной имплант проецирует «фильмы» прямо в мозг, минуя органы чувств? 18842Стотысячный снимок Марса и новые открытия орбитального разведчика NASA 18841Почему кошки встречают мужчин гораздо громче и активнее, чем женщин?