Загрузить содержимое из файла MS Word

Параметры действия:

Предназначение действия:

Загружает текстовое или HTML содержимое файла формата MS Word (с расширением doc, docx, docm, rtf).

Чаще всего используется при парсинге файлов.

Путь к файлу (значение на входе действия, или в параметре «Путь к файлу») может быть задан в 3 вариантах:

  • полный формат, например, c:\folder\filename.txt
  • краткий формат относительно папки программы parser.xla, начиная со слеша \, например, \filename.txt
  • краткий формат относительно папки НАСТРОЙКИ ПАРСЕРОВ, без слеша в начале, например, filename.txt
  • если в качестве параметра «путь к файлу» задать слово dialog — будет выведено диалоговое окно выбора файла

 

Возвращаемое значение: текст или HTML код

 


Параметр «Путь к файлу (вместо исходного значения)»

Тип параметра: произвольное текстовое значение

Позволяет переопределить значение на входе действия
(тогда входное значение игнорируется, и путь берется из этого параметра)

 

Параметр «Запускать новый экземпляр MS Word»

Тип параметра: выбор из списка предопределенных значений

Допустимые значения параметра: да; нет

Значение по умолчанию: нет (в большинстве случаев изменять этот параметр не требуется)

 

Параметр «Открыть в режиме «только чтение»»

Тип параметра: выбор из списка предопределенных значений

Допустимые значения параметра: да; нет

Значение по умолчанию: да (в большинстве случаев изменять этот параметр не требуется)

 

Параметр «Тип результата»

Тип параметра: выбор из списка предопределенных значений

Допустимые значения параметра: text; HTML

Значение по умолчанию: text

Если задан тип результата «HTML», результат берется из сохранённой копии файла в формате «Веб-страница с фильтром».
Это позволяет получить доступ к тексту графических объектов (надписи), а также более гибко извлекать нужные данные, привязываясь к стилям отдельных фрагментов текста (например, к размеру шрифта)

 

Примеры использования:

Парсер файлов Word и еще один парсер вордовских файлов

Исходное значение
Текст (длиной 15 символов)

 

Данный документ содержит графические объекты, в том числе объект типа Надпись (в котором выводятся ФИО и дата рождения). Текст из этой надписи будет доступен только для типа результата «HTML»

 

 

Действие Параметр Значение Результат
Загрузить содержимое из файла MS Word Путь к файлу   Текст (длиной 154 символа)

Запускать новый экземпляр MS Word нет
Открыть в режиме «только чтение» да
Тип результата text

 

При типе результата «HTML» мы можем получить любые данные из документа Word:

Действие Параметр Значение Результат
Загрузить содержимое из файла MS Word Путь к файлу   Исходный код веб-страницы (длиной 6614 символа)

Запускать новый экземпляр MS Word нет
Открыть в режиме «только чтение» да
Тип результата HTML
HTML: Поиск тегов Тип элемента img Текст (длиной 48 символов)

Название проверяемого атрибута  
Значение проверяемого атрибута  
Тип результата / извлекаемый атрибут alt 1
Сохранить результат в переменную  
Использовать новое значение да