Геокодирование на основе Deep Learning: масштабирование для разных стран

Создание геокодера, способного обрабатывать адреса с ошибками и опечатками, а также адаптируемого к различным языковым и адресным системам, стало возможным благодаря применению deep learning. Традиционный подход, основанный на обратном индексе и множестве правил, оказался недостаточно гибким для масштабирования на разные страны. Нейросетевая архитектура, состоящая из двух стадий (L1 и L2), позволила упростить процесс и достичь более высокого качества.
Геокодирование на основе Deep Learning: масштабирование для разных стран
Изображение носит иллюстративный характер

Первая стадия (L1) отвечает за кодирование запросов и документов в векторы с последующим поиском релевантных документов. Для обучения L1 используется контрактный loss (contrastive loss) на этапе предобучения и поточечный подход (pointwise approach) из contrastive learning на этапе дообучения. Вторая стадия (L2) производит переранжирование результатов L1 с учетом точности соответствия (house precision) запроса и документа, что позволяет нашим партнерам понимать точность геокодирования.

Итеративное улучшение модели происходит за счет использования active learning, доразметки запросов из логов, похожих на ошибочные, и аугментации данных. Активное обучение основано на выборе для разметки пар запрос-документ, вызывающих наибольшие разногласия между ансамблем моделей. Аугментация запросов и документов, включая транслитерацию, позволяет поддерживать другие языки.

Новая архитектура геокодера демонстрирует улучшение точности, скорость адаптации к новым странам, а также упрощение поддержки национальных языков и саджестовых запросов. Развитие идет в направлении создания единой geo-foundation модели для всех стран, оптимизации L2-стадии и использования пользовательского сигнала для дальнейшего улучшения качества. Это доказывает, что использование нейросетей для задач information retrieval может быть более эффективным и простым, чем классические ML-методы.


Новое на сайте

19817В Луксоре нашли стелу с римским императором в образе фараона 19816Экипаж Artemis II о моменте, когда земля исчезла за луной 19815Почему луна выглядит по-разному в разных точках земли? 19814Adobe экстренно закрыла опасную дыру в Acrobat Reader, которую хакеры использовали с... 19813Метеорный поток, рождённый из умирающего астероида 19812Когда робот пишет за тебя прощальную смс 19811Что общего у лунной миссии, толстого попугая, загадочной плащаницы и лекарства от диабета? 19810Какие снимки Artemis II уже стали иконами лунной программы? 19809Кто на самом деле хочет сладкого — вы или ваши бактерии? 19808Как рекламные данные 500 миллионов телефонов оказались в руках спецслужб? 19807Экипаж Artemis II вернулся на землю после десяти дней в космосе 19806Зелёная и коричневая луна: почему геологи Artemis II уже не могут усидеть на месте 19805Эксперты уверены в теплозащитном щите Artemis II, несмотря на проблемы предшественника 19804Выжить внутри торнадо: каково это — когда тебя засасывает в воронку 19803Аляскинские косатки-охотники на млекопитающих замечены у берегов Сиэтла
Ссылка