Парсинг файлов PDF

Парсер умеет извлекать данные из файлов формата PDF (ПДФ)

Очень важно: для парсинга подходят только файлы с «текстовым слоем» и без защиты, — т.е. такие, где текст можно ВЫДЕЛИТЬ и СКОПИРОВАТЬ. Если же ваши файлы содержат сканы документов (по сути, фотографии, с которых текст не скопировать), то такие файлы обработать не получится. Если файл PDF с «текстовым слоем» и с защитой от копирования, то придется предварительно ВРУЧНУЮ снять эту защиту (например, используя специализированные онлайн-сервисы)

Для извлечения информации из файлов PDF используется стандартный алгоритм парсера файлов, со следующими особенностями:

  1. Для чтения файла используется действие «Загрузить текст из файла PDF»:
     

    Действие Параметр Значение
    Загрузить текст из файла PDF Путь к файлу  
    Формат результата -simple
    Оставлять созданный TXT файл рядом с PDF да

     

  2. Попробуйте изменить значение параметра «Формат результата»: вид считанного текста может немного измениться.

 

Примеры настройки парсера PDF файлов можно найти в каталоге парсеров файлов:

 

Комментарии

Здравствуйте, Сергей.
Не могу сказать, почему так происходит.
Многое зависит от версии Adobe Reader и версии IE, а также от самого файла PDF.
Особенно вероятны проблемы, если файл объемный (надо долго ждать, пока выделится и скопируется)
Этот функционал предназначен для обработки небольших ПДФ файлов (одна или несколько страниц) - там обычно всё работает нормально.

Добрый вечер!
Файл PDF в IE открывается, но почему-то сочетание Ctrl+A и Ctrl+C не срабатывает.
PDF текстовый, защиты нет. Задержки увеличивал. Антивирус отключал. Но не помогает.
Если в процессе, пока открыто окно IE с файлом PDF, самому перейти в IE и нажать Ctrl+A и Ctrl+C, то после завершения ожидания текст в парсер корректно подтягивается. Но автоматически не срабатывает.
В чем может быть дело?