Адаптивный RAG: динамическое улучшение LLM для юридического NER

В юридической сфере, где точность и полнота данных критичны, использование больших языковых моделей (LLM) для извлечения именованных сущностей (NER) сталкивается с трудностями из-за специфической терминологии и иерархической структуры данных. Традиционный подход RAG (Retrieval-Augmented Generation) дополняется динамическим промптингом, где примеры для few-shot обучения подбираются не статически, а на основе семантического сходства с текущим документом.
Адаптивный RAG: динамическое улучшение LLM для юридического NER
Изображение носит иллюстративный характер

Применение динамического промптинга заключается в том, что сначала юридические тексты разбиваются на фрагменты и векторизуются, формируя базу данных примеров. Затем, при обработке нового документа, его фрагменты также векторизуются, и из базы данных извлекаются наиболее похожие примеры. Эти примеры, в сочетании с инструкциями и схемой данных, формируют промпт для LLM. Это позволяет модели адаптироваться к уникальным особенностям каждого документа.

Ключевыми моментами в динамическом промптинге являются выбор модели для формирования векторов (эмбеддингов) и определение оптимального размера фрагмента текста. Модель для эмбеддингов должна обеспечивать баланс между качеством векторных представлений и скоростью обработки. Оптимальный размер фрагмента должен содержать достаточно контекста, но не быть чрезмерно большим, чтобы не снижать скорость и качество работы системы.

Динамический промптинг обеспечивает улучшение качества извлечения юридических фактов и ускоряет процесс работы над ошибками. Подход масштабируем и легко адаптируется к новым типам документов. Применение такого метода снижает рутинную нагрузку, связанную с подбором примеров, и повышает точность NER.


Новое на сайте

19817В Луксоре нашли стелу с римским императором в образе фараона 19816Экипаж Artemis II о моменте, когда земля исчезла за луной 19815Почему луна выглядит по-разному в разных точках земли? 19814Adobe экстренно закрыла опасную дыру в Acrobat Reader, которую хакеры использовали с... 19813Метеорный поток, рождённый из умирающего астероида 19812Когда робот пишет за тебя прощальную смс 19811Что общего у лунной миссии, толстого попугая, загадочной плащаницы и лекарства от диабета? 19810Какие снимки Artemis II уже стали иконами лунной программы? 19809Кто на самом деле хочет сладкого — вы или ваши бактерии? 19808Как рекламные данные 500 миллионов телефонов оказались в руках спецслужб? 19807Экипаж Artemis II вернулся на землю после десяти дней в космосе 19806Зелёная и коричневая луна: почему геологи Artemis II уже не могут усидеть на месте 19805Эксперты уверены в теплозащитном щите Artemis II, несмотря на проблемы предшественника 19804Выжить внутри торнадо: каково это — когда тебя засасывает в воронку 19803Аляскинские косатки-охотники на млекопитающих замечены у берегов Сиэтла
Ссылка