Пример парсера PDF файлов

Задача: 

Создать таблицу цен на грузоперевозки между городами России,
взяв данные из ПДФ файлов с сайта транспортной компании.

Описание: 

В видеоролике подробно рассказано, как парсер выполняет сбор данных из файлов PDF.
(парсер загружает ПДФ файлы с сайта, но может аналогично обрабатывать и файлы PDF из папки)

 

 

ВАЖНО: Для работы парсера требуется, чтобы браузер Internet Explorer умел открывать файлы ПДФ
Если Internet Explorer не умеет открывать файлы PDF, то необходимо установить расширение Adobe Acrobat Reader для браузеров.
Скачать это расширение можно по ссылке: https://get.adobe.com/ru/reader/

Комментарии

Алексей, мой парсер не может вносить изменения в файлы ПДФ, так что моя программа для этой задачи не подойдёт.

Приветствую! Есть задача разбивать pdf с множеством страниц на отдельные документы. Документы 2-5 страниц. Документы формализованы. Можно идентифицировать начало и конец документа. Интересует возможность разбивать файл на документы и обзывать их по маске с данными из документа.

Евгений, да, возможно

Здравствуйте. Возможно ли спарсить не с сайтов а из папки. Есть больше 10 тысяч документов PDF. Оттуда нужно взять только телефон и емейл, ну может ещё какую то информацию и вывести это в эксель. То есть нужно брать не с сайта документы а из папки на ПК. Такое возможно?

Здравствуйте, Олег.
Обрабатывать файлы ПДФ программа умеет, а вот перебирать письма в почтовой программе - пока нет
Если вы как-то выгрузите все эти файлы ПДФ в папку (каким-нибудь плагином для почтовой программы), тогда можно попробовать.
По цене - от 5500 руб за готовое решение

Добрий день. Есть такая задача. На имейл приходят письма с pdf файлами, нужно некоторые данные из этих pdf файлов выводить в ексель. Можно ли это сделать и сколько ориентировочно это будет стоить?

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  ___   ____    ___   _____           _   _ 
|_ _| | _ \ |_ _| | ___| _ __ | | | |
| | | |_) | | | | |_ | '_ \ | | | |
| | | __/ | | | _| | | | | | |_| |
|___| |_| |___| |_| |_| |_| \___/
Введите код, изображенный в стиле ASCII-арт.