Ssylka

Геокодирование на основе Deep Learning: масштабирование для разных стран

Создание геокодера, способного обрабатывать адреса с ошибками и опечатками, а также адаптируемого к различным языковым и адресным системам, стало возможным благодаря применению deep learning. Традиционный подход, основанный на обратном индексе и множестве правил, оказался недостаточно гибким для масштабирования на разные страны. Нейросетевая архитектура, состоящая из двух стадий (L1 и L2), позволила упростить процесс и достичь более высокого качества.
Геокодирование на основе Deep Learning: масштабирование для разных стран
Изображение носит иллюстративный характер

Первая стадия (L1) отвечает за кодирование запросов и документов в векторы с последующим поиском релевантных документов. Для обучения L1 используется контрактный loss (contrastive loss) на этапе предобучения и поточечный подход (pointwise approach) из contrastive learning на этапе дообучения. Вторая стадия (L2) производит переранжирование результатов L1 с учетом точности соответствия (house precision) запроса и документа, что позволяет нашим партнерам понимать точность геокодирования.

Итеративное улучшение модели происходит за счет использования active learning, доразметки запросов из логов, похожих на ошибочные, и аугментации данных. Активное обучение основано на выборе для разметки пар запрос-документ, вызывающих наибольшие разногласия между ансамблем моделей. Аугментация запросов и документов, включая транслитерацию, позволяет поддерживать другие языки.

Новая архитектура геокодера демонстрирует улучшение точности, скорость адаптации к новым странам, а также упрощение поддержки национальных языков и саджестовых запросов. Развитие идет в направлении создания единой geo-foundation модели для всех стран, оптимизации L2-стадии и использования пользовательского сигнала для дальнейшего улучшения качества. Это доказывает, что использование нейросетей для задач information retrieval может быть более эффективным и простым, чем классические ML-методы.


Новое на сайте

14786Память, ожившая на сцене: как Cat Hunter создает театр в честь сына 14785Смертельная рулетка: как нелегальные препараты для похудения угрожают жизни 14783Птицы от рассвета до заката: персональная выставка Джима мойра в Lady Lever Art Gallery 14782Новая жизнь фасада: надежда и история на стенах кинотеатра ABC 14781Поворот в доступности абортов: как законы и технологии меняют картину в США 14780Что стало с лицом Lil Nas X? 14779Взлом аккаунта министра: криптовалютная афера на платформе X 14778Google под прицелом антимонопольной комиссии Японии 14777Хор для тех, кто не умеет петь: как Zest Choir меняет отношение к музыке 14776Поглотила ли покупка Instagram конкуренцию на рынке соцсетей? 14775Как у прилавка с суши возникла уэльская морская трава? 14774Почему муравьи становятся новой целью международных браконьеров? 14773Как пятеро друзей из Dude Perfect стали символом семейного развлечения? 14772Может ли Хельсинки стать новой столицей европейских стартапов?