Для автоматизации отбора подрядчиков, участвующих в тендерах, была разработана система на основе LLM Mistral-7B-v0.2. Она анализирует документы претендентов и проверяет соответствие их компетенций требованиям заказчика. Система состоит из двух этапов: классификации документов и их сверки.

На первом этапе классификатор на базе LLM отсеивает нерелевантные документы, сопоставляя их с критериями отбора. Для корректной классификации используется дополнительный контекст, такой как тип контракта, и предварительная суммаризация документов. Однако в дальнейшем от суммаризации отказались, чтобы избежать потери данных. В результате классификации достигается точность 79%, полнота 82% и F1-мера 0.86.
На втором этапе происходит сверка отобранных документов. Из документов извлекаются ключевые сведения (метаданные) с помощью RAG, а затем эти сведения передаются LLM для принятия окончательного решения о соответствии участника критериям. Этот этап включает в себя выделение необходимых характеристик, таких как контрагенты и даты услуг из документов, а также извлечение метаданных, например, ФИО и квалификации из дипломов.
Результаты показали высокую эффективность системы по большинству критериев (F1 ~0.82), но есть проблемы с критериями, где требуется точное соответствие данных из нескольких документов, например, договоров и актов, что указывает на необходимость улучшения извлечения метаданных и, возможно, использование моделей с большим контекстным окном для обработки целых документов.

Изображение носит иллюстративный характер
На первом этапе классификатор на базе LLM отсеивает нерелевантные документы, сопоставляя их с критериями отбора. Для корректной классификации используется дополнительный контекст, такой как тип контракта, и предварительная суммаризация документов. Однако в дальнейшем от суммаризации отказались, чтобы избежать потери данных. В результате классификации достигается точность 79%, полнота 82% и F1-мера 0.86.
На втором этапе происходит сверка отобранных документов. Из документов извлекаются ключевые сведения (метаданные) с помощью RAG, а затем эти сведения передаются LLM для принятия окончательного решения о соответствии участника критериям. Этот этап включает в себя выделение необходимых характеристик, таких как контрагенты и даты услуг из документов, а также извлечение метаданных, например, ФИО и квалификации из дипломов.
Результаты показали высокую эффективность системы по большинству критериев (F1 ~0.82), но есть проблемы с критериями, где требуется точное соответствие данных из нескольких документов, например, договоров и актов, что указывает на необходимость улучшения извлечения метаданных и, возможно, использование моделей с большим контекстным окном для обработки целых документов.