- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Загрузить содержимое из файла MS Word |
Параметры действия:
- Путь к файлу (вместо исходного значения)
- Запускать новый экземпляр MS Word
- Открыть в режиме «только чтение»
- Тип результата
Предназначение действия:
Загружает текстовое или HTML содержимое файла формата MS Word (с расширением doc, docx, docm, rtf).
Чаще всего используется при парсинге файлов.
Путь к файлу (значение на входе действия, или в параметре «Путь к файлу») может быть задан в 3 вариантах:
- полный формат, например, c:\folder\filename.txt
- краткий формат относительно папки программы parser.xla, начиная со слеша \, например, \filename.txt
- краткий формат относительно папки НАСТРОЙКИ ПАРСЕРОВ, без слеша в начале, например, filename.txt
- если в качестве параметра «путь к файлу» задать слово dialog — будет выведено диалоговое окно выбора файла
Возвращаемое значение: текст или HTML код
Параметр «Путь к файлу (вместо исходного значения)»
Параметр «Запускать новый экземпляр MS Word»
Параметр «Открыть в режиме «только чтение»»
Параметр «Тип результата»
Если задан тип результата «HTML», результат берется из сохранённой копии файла в формате «Веб-страница с фильтром».
Это позволяет получить доступ к тексту графических объектов (надписи), а также более гибко извлекать нужные данные, привязываясь к стилям отдельных фрагментов текста (например, к размеру шрифта)
Примеры использования:
Парсер файлов Word и еще один парсер вордовских файлов
Исходное значение | |
---|---|
Текст (длиной 15 символов)
Данный документ содержит графические объекты, в том числе объект типа Надпись (в котором выводятся ФИО и дата рождения). Текст из этой надписи будет доступен только для типа результата «HTML» |
Действие | Параметр | Значение | Результат |
---|---|---|---|
Загрузить содержимое из файла MS Word | Путь к файлу | Текст (длиной 154 символа) | |
Запускать новый экземпляр MS Word | нет | ||
Открыть в режиме «только чтение» | да | ||
Тип результата | text |
При типе результата «HTML» мы можем получить любые данные из документа Word:
Действие | Параметр | Значение | Результат |
---|---|---|---|
Загрузить содержимое из файла MS Word | Путь к файлу | Исходный код веб-страницы (длиной 6614 символа) | |
Запускать новый экземпляр MS Word | нет | ||
Открыть в режиме «только чтение» | да | ||
Тип результата | HTML | ||
HTML: Поиск тегов | Тип элемента | img | Текст (длиной 48 символов) |
Название проверяемого атрибута | |||
Значение проверяемого атрибута | |||
Тип результата / извлекаемый атрибут | alt 1 | ||
Сохранить результат в переменную | |||
Использовать новое значение | да |
- Добавить комментарий
- 810 просмотров