- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Парсинг файлов Word |
Парсер поддерживает следующие типы файлов Word:
- .doc, .docx, .docm, и т.п. — «обычные» документы Word
- .rtf, .odt и другие форматы, поддерживаемые Word
Для сбора данных из файлов Word используется стандартный алгоритм парсера файлов, со следующими особенностями:
- Для чтения файла используется действие «Загрузить содержимое из файла MS Word», с параметром «Тип результата» text или HTML:
Действие Параметр Значение Загрузить содержимое из файла MS Word Путь к файлу Запускать новый экземпляр MS Word нет Открыть в режиме «только чтение» да Тип результата text / HTML Принудительно закрывать файлы Word не требуется (данные из файла считываются, и файл сразу закрывается)
- Тип результата «text» подойдет для простых документов, где есть к чему привязаться для извлечения значений.
Например, если данные в документе имеют вид Дата: 25.04.2021, то парсер для получения даты может взять текст между словом Дата: и переводом строки {NL}
Учитывать стили абзацев в данном случае ни к чему (потому разметка HTML не нужна для парсинга)
- Для документов сложной структуры, или с большим объёмом данных, имеет смысл использовать тип результата HTML, и производить разбор данных из файла с учётом стилей (размер шрифта и т.п.).
Кроме того, в этом случае есть возможность считывать данные из различных объектов Word, таких как например надписи и колонтитулы.
- Есть возможность выгружать фотографии из документа, при помощи действия «Выгрузить картинки из файла Word»
Примеры настройки парсера файлов Word можно найти в каталоге парсеров файлов:
- Добавить комментарий
- 2079 просмотров