Парсер поддерживает следующие типы файлов Word:
- .doc, .docx, .docm, и т.п. — «обычные» документы Word
- .rtf, .odt и другие форматы, поддерживаемые Word
Для сбора данных из файлов Word используется стандартный алгоритм парсера файлов, со следующими особенностями:
- Для чтения файла используется действие «Загрузить содержимое из файла MS Word», с параметром «Тип результата» text или HTML:
Действие Параметр Значение Загрузить содержимое из файла MS Word Путь к файлу Запускать новый экземпляр MS Word нет Открыть в режиме «только чтение» да Тип результата text / HTML Принудительно закрывать файлы Word не требуется (данные из файла считываются, и файл сразу закрывается)
- Тип результата «text» подойдет для простых документов, где есть к чему привязаться для извлечения значений.
Например, если данные в документе имеют вид Дата: 25.04.2021, то парсер для получения даты может взять текст между словом Дата: и переводом строки {NL}
Учитывать стили абзацев в данном случае ни к чему (потому разметка HTML не нужна для парсинга)
- Для документов сложной структуры, или с большим объёмом данных, имеет смысл использовать тип результата HTML, и производить разбор данных из файла с учётом стилей (размер шрифта и т.п.).
Кроме того, в этом случае есть возможность считывать данные из различных объектов Word, таких как например надписи и колонтитулы.
- Есть возможность выгружать фотографии из документа, при помощи действия «Выгрузить картинки из файла Word»
Примеры настройки парсера файлов Word можно найти в каталоге парсеров файлов:
