Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Решение проблемы описано здесь:
http://excelvba.ru/faq/excel_error
(причина: либо антивирус повредил файл при скачивании или при запуске, либо не установлен компонент Microsoft Visual Basic)

Здравствуйте. Я запустил файл и вышло вот это сообщение
http://joxi.ru/v29axJZSGgJVo2
Нажал включить, после этого такое сообщение
http://joxi.ru/Vm6LOb0TxNYODA

С чем связана эта ошибка и что мне делать?

При получении исходного кода с помощью парсера он получает только код нескольких скриптов. То же самое и в браузере при Ctrl+U

Нет, парсер работает только из под Windows, без вариантов

Здравствуйте вы делаете Парсeр для Mac OS Excel?

Валерий, не существует веб-страниц с защищённым от просмотра кодом.
Исходный код любой страницы можно посмотреть

Здравствуйте!
Подскажите можно ли вашим парсером получить исходный код страницы если он защищен от данного просмотра?

заказы на парсер принимаются в таком виде

будет заказ - тогда смогу озвучить стоимость

Сколько будет стоить настраивание под заказ?

Артём, да, можно. Парсер всё это умеет. Нужно просто правильно настроить

при парсинге в выводе ставлю тип элемента "p"

вы берете все подряд со страницы - конечно, много лишнего попадет

Если готовы приобрести программу, - напишите в скайп, подскажу, что как сделать.

Здравствуйте! Пытаюсь парсить архив мероприятий кассы.ру (просто так открыть нельзя, только прописывая в адресной строке нужный месяц и год) и при парсинге в выводе ставлю тип элемента "p", тип результата "convert to text", но тут загвоздка в том, что в этом элементе ещё много ненужного текста (нужно место вместе с датой и стоимость). Можно ли как-то парсер научить отбирать нужную информацию и разбивать на столбцы?

Не работает, потому что в исходном коде страницы нет этого тега, который вы ищете (а в браузере - есть, - там скрипт отрабатывает, выводя цену)
Вы тестируете действие на коде странице, загруженном парсером?
Откройте этот HTML код в блокноте, поиском найдите цену, - и посмотрите, где она там.

PS: могу настроить под заказ.

Не зробит( может существует способ подбора текста по его формату? цвет, размер, как в моём случае?!

Просто используйте действие из раздела HTML «Взять цену товара»
Если найдёт не ту цену, что надо, в качестве параметра укажите class=item-price

Приветствую! у меня возникла сложность с использованием парсинга, а конкретно: есть сайт канцелярии, и цену этот сайт выставляет, как я понял, через сторонее апи(могу ошибаться), так, что у этого значения(цены) нету класса, существует ли способ как то заставить парсер воспринимать нужное мне значение? П.С. прикрепляю скрин загруженный на облачное хранилище прогрммы "Light Shot". / http://prntscr.com/i0mxah / http://prntscr.com/i0mzqq .

Могу только сказать, что информация из всплывающих окон, по факту, ничем не отличается от информации в любом другом месте веб-страницы.
И обрабатывается все аналогично.
Если сами не справляетесь с настройкой, - можем настроить под заказ.

Доброго времени суток. А что можете сказать про информацию из всплывающих окон? Они не имеют отдельной страницы. Как настроить на сбор информации из этих окон? Через исходные данные или вывод на лист? не подскажете, что делать?

Здравствуйте, Дмитрий
В общем случае, это невозможно (если парсер не разделен на 2 части, - отдельно выводим список ссылок на товары, и вторым парсером, который можно останавливать, выводим данные по ссылкам)

И посмотрите это видео, там рассказывается, что можно сделать:
https://www.youtube.com/watch?v=vrePs7pojTI

Доброго времени суток.
Как после отмены парсинга начать с того места где остановился?

Здравствуйте. Написал парсер Авито, парсит в один поток с интервалом между запросами, работает стабильно. Скажите опираясь на свой опыт, возможно ли написать парсер Авито, что бы он работал в многопотоке, при этом что бы сайт не выдавал бан?

Здравствуйте, Николай.
В парсере нет этого функционала, и не планируется,
потому что вставить картинки (как по ссылкам, так и уже скачанные, из папки) можно нажатием одной кнопки в этой надстройке:
http://excelvba.ru/programmes/PastePictures
Дублировать её функционал в парсере я не хочу.

Добрый день Игорь. В программе есть возможность вставить изображение в ячейку. Скажем я получил ссылку на изображения. Но хочу чтоб вместо ссылки там стояла картинка. Если можно то с заданными мной размерами. Это есть в функционале программы?

Подскажите пожалуйста, а если на странице указан пейджер не в виде перечня всех страниц, а просто текущая страница и две стрелки "вперед" и "назад" - как в таком случае настроить? Идентификатор пейджера "?page="
Парсер выдает только первую страницу и вторую, а их намного больше

Спасибо

Последним действием перед выводом на лист добавьте действие "Добавить текст ДО или ПОСЛЕ" и в параметр "ДО" поставьте апостроф - '
Сам апостроф в ячейке не отображается (его видно только в строке формул), при этом значение воспринимается как текстовое.

В Excel, если попробовать ввести штрих-код 03836725 (с одного из сайтов), то ноль пропадает. Если же предварительно установить формат ячейки "текстовый", то штрих-код корректно сохраняется в ячейке. Вопрос: можно ли каким-то образом парсеру задать в настройках автоматически форматировать столбец как "текстовый", в который вывожу штрих-код (чтобы всякий раз вручную не устанавливать заранее формат)?

Игорь, данная функция была бы очень полезна, сделайте ее пожалуйста.

Виталий, пока нет такой возможности, но в планах есть реализовать (по срокам пока ничего не могу сказать)

Здравствуйте.

Настроил в экселе таблицу для мониторинга цен клиентов (слежу за демпингом цен). Сайтов достаточно много и парсер запускает их все по очереди (обработав первый переходит ко второму). Есть ли возможность запуска нескольких потоков (парсеров) одновременно. Например, чтобы не ждать очередь, пока по очереди "пропарсятся" 10 сайтов, а запустить все в 10 потоков?

Не знаю, что вы подразумеваете под словом «автоматически», - но возможно

Автоматически можно настроить сбор данных?