Ssylka

Маскировка персональных данных через NER: обзор моделей и их комбинаций

Защита персональных данных требует эффективных методов маскировки, для чего применяется NER (Named Entity Recognition). Различные модели показывают разные результаты по выявлению и маскировке таких данных. Так, Slavic Bert, адаптированный для славянских языков, достигает Recall 76,4% без дополнительного обучения, что недостаточно для надежной защиты. GLiNER, основанная на двунаправленных языковых моделях, показала значительно лучший результат в 94,9% без дообучения, что делает ее более экономичным и производительным решением.
Маскировка персональных данных через NER: обзор моделей и их комбинаций
Изображение носит иллюстративный характер

Spacy, популярная библиотека для обработки естественного языка, показала результат 95,4%. Ее эффективность была достигнута путем комбинирования ручной разметки, обучения на ее основе модели, автоматической разметки новых данных, проверки экспертами и затем дообучения модели на синтетическом датасете с типовыми паттернами. Также в тестировании принимала участие Qwen2.5-Coder-7B-Instruct-AWQ, которая показала Recall 87,4%.

Для дальнейшего улучшения результатов были опробованы комбинации моделей. Сочетание GLiNER и Qwen показало наивысший результат в 98,6% Recall. Однако, комбинация Spacy и GLiNER с результатом 98,5% также является крайне эффективной и при этом менее требовательной к ресурсам.

Таким образом, комбинация моделей Spacy и GLiNER предоставляет оптимальное соотношение качества и ресурсоемкости для маскировки персональных данных. Уточняется, что модели могут корректно распознавать смешанный русско-английский текст.


Новое на сайте

18590Является ли ИИ-архитектура, имитирующая мозг, недостающим звеном на пути к AGI? 18589Как Operation Endgame нанесла сокрушительный удар по глобальной киберпреступности? 18588Кибервойна на скорости машин: почему защита должна стать автоматической к 2026 году 18587Как одна ошибка в коде открыла для хакеров 54 000 файрволов WatchGuard? 18586Криптовалютный червь: как десятки тысяч фейковых пакетов наводнили npm 18585Портативный звук JBL по рекордно низкой цене 18584Воин-крокодил триаса: находка в Бразилии связала континенты 18583Опиум как повседневность древнего Египта 18582Двойной удар по лекарственно-устойчивой малярии 18581Почему взрыв массивной звезды асимметричен в первые мгновения? 18580Почему самые удобные для поиска жизни звезды оказались наиболее враждебными? 18579Смертоносные вспышки красных карликов угрожают обитаемым мирам 18578Почему самый активный подводный вулкан тихого океана заставил ученых пересмотреть дату... 18577Вспышка на солнце сорвала запуск ракеты New Glenn к Марсу 18576Как фишинг-платформа Lighthouse заработала миллиард долларов и почему Google подала на...