Ssylka

Адаптивный RAG: динамическое улучшение LLM для юридического NER

В юридической сфере, где точность и полнота данных критичны, использование больших языковых моделей (LLM) для извлечения именованных сущностей (NER) сталкивается с трудностями из-за специфической терминологии и иерархической структуры данных. Традиционный подход RAG (Retrieval-Augmented Generation) дополняется динамическим промптингом, где примеры для few-shot обучения подбираются не статически, а на основе семантического сходства с текущим документом.
Адаптивный RAG: динамическое улучшение LLM для юридического NER
Изображение носит иллюстративный характер

Применение динамического промптинга заключается в том, что сначала юридические тексты разбиваются на фрагменты и векторизуются, формируя базу данных примеров. Затем, при обработке нового документа, его фрагменты также векторизуются, и из базы данных извлекаются наиболее похожие примеры. Эти примеры, в сочетании с инструкциями и схемой данных, формируют промпт для LLM. Это позволяет модели адаптироваться к уникальным особенностям каждого документа.

Ключевыми моментами в динамическом промптинге являются выбор модели для формирования векторов (эмбеддингов) и определение оптимального размера фрагмента текста. Модель для эмбеддингов должна обеспечивать баланс между качеством векторных представлений и скоростью обработки. Оптимальный размер фрагмента должен содержать достаточно контекста, но не быть чрезмерно большим, чтобы не снижать скорость и качество работы системы.

Динамический промптинг обеспечивает улучшение качества извлечения юридических фактов и ускоряет процесс работы над ошибками. Подход масштабируем и легко адаптируется к новым типам документов. Применение такого метода снижает рутинную нагрузку, связанную с подбором примеров, и повышает точность NER.


Новое на сайте

19021Хитроумная маскировка вредоноса GootLoader через тысячи склеенных архивов 19020Удастся ли знаменитому археологу Захи Хавассу найти гробницу Нефертити до ухода на покой? 19019Действительно ли «зомби-клетки» провоцируют самую распространенную форму эпилепсии и... 19018Генетический анализ мумий гепардов из саудовской Аравии открыл путь к возрождению... 19017Вредоносная кампания в Chrome перехватывает управление HR-системами и блокирует... 19016Глубоководные оползни раскрыли историю мегаземлетрясений зоны Каскадия за 7500 лет 19015Насколько глубоки ваши познания об эволюции и происхождении человека? 19014Как уязвимость CodeBreach в AWS CodeBuild могла привести к глобальной атаке через ошибку... 19013Затерянный фрагмент древней плиты пионер меняет карту сейсмических угроз Калифорнии 19012Генетические мутации вызывают слепоту менее чем в 30% случаев вопреки прежним прогнозам 19011Завершено строительство космического телескопа Nancy Grace Roman для поиска ста тысяч... 19010Вязкость пространства и фононы вакуума как разгадка аномалий расширения вселенной 19009Приведет ли массовое плодоношение дерева Риму к рекордному росту популяции какапо? 19008Как уязвимость CVE-2026-23550 в плагине Modular DS позволяет захватить управление сайтом? 19007Может ли уличная драка французского авантюриста раскрыть кризис американского гражданства...