Локальный поисковик для анализа внутренних ресурсов

Внутренние сети часто содержат чувствительные данные на общедоступных ресурсах, включая сетевые диски, веб-сайты и FTP-серверы. Для эффективного поиска информации в этих ресурсах можно создать собственный поисковый движок, используя готовые GNU-утилиты. Такой подход позволяет автоматизировать сканирование и извлечение данных из различных форматов файлов, включая текстовые документы, PDF, Excel, изображения, исполняемые файлы и архивы.
Локальный поисковик для анализа внутренних ресурсов
Изображение носит иллюстративный характер

Процесс начинается с монтирования сетевых ресурсов и использования find для определения путей к файлам. Затем утилита file определяет тип файла, а соответствующие парсеры (например, lynx, xls2csv, pdf2txt, radare2, tesseract, vosk, 7z) извлекают текстовое содержимое. Для индексации данных используется CSV-формат, который подходит для машинной обработки и для поиска через grep.

Для более гибкого поиска можно использовать базу данных SQLite с полнотекстовым поиском. Это позволяет выполнять запросы с учетом различных параметров и выводить результаты с контекстом. Поисковый движок также может быть расширен для анализа веб-сайтов и FTP-серверов, используя wget.

Для защиты от утечки данных, предлагается непрерывный краулинг и индексация данных, с последующей загрузкой в Elasticsearch или OpenSearch. Это позволяет отслеживать изменения и уведомлять о появлении новых потенциально опасных файлов. Система легко масштабируется горизонтально (запуск нескольких краулеров) и вертикально (добавление новых парсеров) и разворачивается с помощью Docker, что делает ее доступной для быстрого внедрения.


Новое на сайте

19817В Луксоре нашли стелу с римским императором в образе фараона 19816Экипаж Artemis II о моменте, когда земля исчезла за луной 19815Почему луна выглядит по-разному в разных точках земли? 19814Adobe экстренно закрыла опасную дыру в Acrobat Reader, которую хакеры использовали с... 19813Метеорный поток, рождённый из умирающего астероида 19812Когда робот пишет за тебя прощальную смс 19811Что общего у лунной миссии, толстого попугая, загадочной плащаницы и лекарства от диабета? 19810Какие снимки Artemis II уже стали иконами лунной программы? 19809Кто на самом деле хочет сладкого — вы или ваши бактерии? 19808Как рекламные данные 500 миллионов телефонов оказались в руках спецслужб? 19807Экипаж Artemis II вернулся на землю после десяти дней в космосе 19806Зелёная и коричневая луна: почему геологи Artemis II уже не могут усидеть на месте 19805Эксперты уверены в теплозащитном щите Artemis II, несмотря на проблемы предшественника 19804Выжить внутри торнадо: каково это — когда тебя засасывает в воронку 19803Аляскинские косатки-охотники на млекопитающих замечены у берегов Сиэтла
Ссылка