Ssylka

Геокодирование на основе Deep Learning: масштабирование для разных стран

Создание геокодера, способного обрабатывать адреса с ошибками и опечатками, а также адаптируемого к различным языковым и адресным системам, стало возможным благодаря применению deep learning. Традиционный подход, основанный на обратном индексе и множестве правил, оказался недостаточно гибким для масштабирования на разные страны. Нейросетевая архитектура, состоящая из двух стадий (L1 и L2), позволила упростить процесс и достичь более высокого качества.
Геокодирование на основе Deep Learning: масштабирование для разных стран
Изображение носит иллюстративный характер

Первая стадия (L1) отвечает за кодирование запросов и документов в векторы с последующим поиском релевантных документов. Для обучения L1 используется контрактный loss (contrastive loss) на этапе предобучения и поточечный подход (pointwise approach) из contrastive learning на этапе дообучения. Вторая стадия (L2) производит переранжирование результатов L1 с учетом точности соответствия (house precision) запроса и документа, что позволяет нашим партнерам понимать точность геокодирования.

Итеративное улучшение модели происходит за счет использования active learning, доразметки запросов из логов, похожих на ошибочные, и аугментации данных. Активное обучение основано на выборе для разметки пар запрос-документ, вызывающих наибольшие разногласия между ансамблем моделей. Аугментация запросов и документов, включая транслитерацию, позволяет поддерживать другие языки.

Новая архитектура геокодера демонстрирует улучшение точности, скорость адаптации к новым странам, а также упрощение поддержки национальных языков и саджестовых запросов. Развитие идет в направлении создания единой geo-foundation модели для всех стран, оптимизации L2-стадии и использования пользовательского сигнала для дальнейшего улучшения качества. Это доказывает, что использование нейросетей для задач information retrieval может быть более эффективным и простым, чем классические ML-методы.


Новое на сайте

16941Спутники Starlink создают непреднамеренную угрозу для радиоастрономии 16940Аутентификационная чума: бэкдор Plague год оставался невидимым 16939Фиолетовый страж тайских лесов: редкий краб-принцесса явился миру 16938Хроники мангровых лесов: победители фотоконкурса 2025 года 16937Танцевали ли планеты солнечной системы идеальный вальс? 16936Ай-ай: причудливый лемур, проклятый своим пальцем 16935Как рентгеновское зрение раскрывает самые бурные процессы во вселенной? 16934Уязвимость нулевого дня в SonicWall VPN стала оружием группировки Akira 16933Может ли государственный фонд единолично решать судьбу американской науки? 16932Способна ли филантропия блогеров решить мировой водный кризис? 16931Взлом через промпт: как AI-редактор Cursor превращали в оружие 16930Мог ли древний кризис заставить людей хоронить мертвых в печах с собаками? 16929Какие наушники Bose выбрать на распродаже: для полной изоляции или контроля над... 16928Может ли искусство напрямую очищать экосистемы от вредителей? 16927Вирусное наследие в геноме человека оказалось ключевым регулятором генов