- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Парсинг файлов PDF |
Парсер умеет извлекать данные из файлов формата PDF (ПДФ)
Очень важно: для парсинга подходят только файлы с «текстовым слоем» и без защиты, — т.е. такие, где текст можно ВЫДЕЛИТЬ и СКОПИРОВАТЬ. Если же ваши файлы содержат сканы документов (по сути, фотографии, с которых текст не скопировать), то такие файлы обработать не получится. Если файл PDF с «текстовым слоем» и с защитой от копирования, то придется предварительно ВРУЧНУЮ снять эту защиту (например, используя специализированные онлайн-сервисы)
Для извлечения информации из файлов PDF используется стандартный алгоритм парсера файлов, со следующими особенностями:
- Для чтения файла используется действие «Скопировать содержимое PDF файла через IE»:
Действие Параметр Значение Скопировать содержимое PDF файла через IE Время ожидания после открытия, сек. 1 Время ожидания копирования, сек. 0 Количество попыток копирования 1 Извлекаемый формат из буфера обмена Rich Text Format Скачивать файл перед открытием да Сохранять файл под именем Сохранять в кеше под именем - ВАЖНО: Для работы парсера требуется, чтобы браузер Internet Explorer умел открывать файлы ПДФ
Если Internet Explorer не умеет открывать файлы PDF, то необходимо установить расширение Adobe Acrobat Reader для браузеров. Скачать это расширение можно по ссылке: https://get.adobe.com/ru/reader/
- Данные из PDF можно скопировать как в виде текста, так и с разметкой — в формате RTF (Rich Text Format)
Обычно из буфера обмена берется содержимое в формате Rich Text Format, и следующим действием преобразуется в HTML при помощи действия «Преобразовать RTF в HTML»
- Для больших файлов ПДФ (десятки страниц) обязательно увеличивайте таймауты (первые 2 параметра действия), потому что выделение текста и его последующее копирование могут занимать МНОГО времени.
Время ожидания копирования можно увеличить до 2-3 секунд (в некоторых случаях надо ждать еще дольше, 5-10-30 секунд)
- Для огромных ПДФ файлов, время считывания информации может измеряться минутами.
Например, мне попался файл PDF весом 300 мегабайтов (30 тысяч записей, 1000 страниц, — выгрузка переписки из программы Мобильный криминалист), где только выделение текста (после нажатия Ctrl + A) занимало 2-3 минуты, а копирование информации в буфер обмена (Ctrl + C) длилось около 15 минут. Для таких файлов правильнее будет ВРУЧНУЮ копировать информацию в текстовый файл, и потом уже парсить текст из файла.
Примеры настройки парсера PDF файлов можно найти в каталоге парсеров файлов:
- Добавить комментарий
- 7352 просмотра
Комментарии
Здравствуйте, Сергей.
Не могу сказать, почему так происходит.
Многое зависит от версии Adobe Reader и версии IE, а также от самого файла PDF.
Особенно вероятны проблемы, если файл объемный (надо долго ждать, пока выделится и скопируется)
Этот функционал предназначен для обработки небольших ПДФ файлов (одна или несколько страниц) - там обычно всё работает нормально.
Добрый вечер!
Файл PDF в IE открывается, но почему-то сочетание Ctrl+A и Ctrl+C не срабатывает.
PDF текстовый, защиты нет. Задержки увеличивал. Антивирус отключал. Но не помогает.
Если в процессе, пока открыто окно IE с файлом PDF, самому перейти в IE и нажать Ctrl+A и Ctrl+C, то после завершения ожидания текст в парсер корректно подтягивается. Но автоматически не срабатывает.
В чем может быть дело?