Парсинг файлов Word

Парсер поддерживает следующие типы файлов Word:

  • .doc, .docx, .docm, и т.п. — «обычные» документы Word
  • .rtf, .odt и другие форматы, поддерживаемые Word

Для сбора данных из файлов Word используется стандартный алгоритм парсера файлов, со следующими особенностями:

  1. Для чтения файла используется действие «Загрузить содержимое из файла MS Word», с параметром «Тип результата» text или HTML:
     

    Действие Параметр Значение
    Загрузить содержимое из файла MS Word Путь к файлу  
    Запускать новый экземпляр MS Word нет
    Открыть в режиме «только чтение» да
    Тип результата text / HTML

    Принудительно закрывать файлы Word не требуется (данные из файла считываются, и файл сразу закрывается)
     

  2. Тип результата «text» подойдет для простых документов, где есть к чему привязаться для извлечения значений.
    Например, если данные в документе имеют вид Дата: 25.04.2021, то парсер для получения даты может взять текст между словом Дата: и переводом строки {NL}
    Учитывать стили абзацев в данном случае ни к чему (потому разметка HTML не нужна для парсинга)
     
  3. Для документов сложной структуры, или с большим объёмом данных, имеет смысл использовать тип результата HTML, и производить разбор данных из файла с учётом стилей (размер шрифта и т.п.).
    Кроме того, в этом случае есть возможность считывать данные из различных объектов Word, таких как например надписи и колонтитулы.
     
  4. Есть возможность выгружать фотографии из документа, при помощи действия «Выгрузить картинки из файла Word»

 

Примеры настройки парсера файлов Word можно найти в каталоге парсеров файлов: