Библиотека Spire.Doc for Python позволяет программно извлекать данные из документов Microsoft Word. Она поддерживает загрузку файлов, получение всего текста документа, доступ к таблицам и извлечение изображений. Для использования Spire.Doc её необходимо установить через pip.
Текст извлекается методом
Для извлечения изображений код проходит по всем дочерним объектам документа. Изображения определяются по типу
Библиотека не уточняет, работает ли она с форматами.doc и.docx. В комментариях к оригинальной статье есть вопрос о поддержке разных стандартов, что подразумевает потенциальные различия в их обработке.
Изображение носит иллюстративный характер
Текст извлекается методом
Document.GetText()
. Программный код сохраняет текст в текстовый файл. Для таблиц используется доступ к свойству Section.Tables
, затем перебор строк и ячеек для извлечения текстового содержимого. Текст каждой ячейки добавляется в переменную, формируя данные таблицы, которые затем сохраняются в текстовый файл. Для извлечения изображений код проходит по всем дочерним объектам документа. Изображения определяются по типу
DocumentObjectType.Picture
. Данные изображения, представленные в виде байтов, извлекаются через свойство ImageBytes
, а затем сохраняются в файлы. Библиотека не уточняет, работает ли она с форматами.doc и.docx. В комментариях к оригинальной статье есть вопрос о поддержке разных стандартов, что подразумевает потенциальные различия в их обработке.