Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция по настройке парсера сайтов для формирования прайса с интернета-магазина:

 

Дополнительная видеоинструкция: загрузка страниц и авторизация на сайте

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 1500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (2500 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Комментарии

Сколько будет стоить настраивание под заказ?

Артём, да, можно. Парсер всё это умеет. Нужно просто правильно настроить

при парсинге в выводе ставлю тип элемента "p"

вы берете все подряд со страницы - конечно, много лишнего попадет

Если готовы приобрести программу, - напишите в скайп, подскажу, что как сделать.

Здравствуйте! Пытаюсь парсить архив мероприятий кассы.ру (просто так открыть нельзя, только прописывая в адресной строке нужный месяц и год) и при парсинге в выводе ставлю тип элемента "p", тип результата "convert to text", но тут загвоздка в том, что в этом элементе ещё много ненужного текста (нужно место вместе с датой и стоимость). Можно ли как-то парсер научить отбирать нужную информацию и разбивать на столбцы?

Не работает, потому что в исходном коде страницы нет этого тега, который вы ищете (а в браузере - есть, - там скрипт отрабатывает, выводя цену)
Вы тестируете действие на коде странице, загруженном парсером?
Откройте этот HTML код в блокноте, поиском найдите цену, - и посмотрите, где она там.

PS: могу настроить под заказ.

Не зробит( может существует способ подбора текста по его формату? цвет, размер, как в моём случае?!

Просто используйте действие из раздела HTML «Взять цену товара»
Если найдёт не ту цену, что надо, в качестве параметра укажите class=item-price

Приветствую! у меня возникла сложность с использованием парсинга, а конкретно: есть сайт канцелярии, и цену этот сайт выставляет, как я понял, через сторонее апи(могу ошибаться), так, что у этого значения(цены) нету класса, существует ли способ как то заставить парсер воспринимать нужное мне значение? П.С. прикрепляю скрин загруженный на облачное хранилище прогрммы "Light Shot". / http://prntscr.com/i0mxah / http://prntscr.com/i0mzqq .

Могу только сказать, что информация из всплывающих окон, по факту, ничем не отличается от информации в любом другом месте веб-страницы.
И обрабатывается все аналогично.
Если сами не справляетесь с настройкой, - можем настроить под заказ.

Доброго времени суток. А что можете сказать про информацию из всплывающих окон? Они не имеют отдельной страницы. Как настроить на сбор информации из этих окон? Через исходные данные или вывод на лист? не подскажете, что делать?

Здравствуйте, Дмитрий
В общем случае, это невозможно (если парсер не разделен на 2 части, - отдельно выводим список ссылок на товары, и вторым парсером, который можно останавливать, выводим данные по ссылкам)

И посмотрите это видео, там рассказывается, что можно сделать:
https://www.youtube.com/watch?v=vrePs7pojTI

Доброго времени суток.
Как после отмены парсинга начать с того места где остановился?

Здравствуйте. Написал парсер Авито, парсит в один поток с интервалом между запросами, работает стабильно. Скажите опираясь на свой опыт, возможно ли написать парсер Авито, что бы он работал в многопотоке, при этом что бы сайт не выдавал бан?

Здравствуйте, Николай.
В парсере нет этого функционала, и не планируется,
потому что вставить картинки (как по ссылкам, так и уже скачанные, из папки) можно нажатием одной кнопки в этой надстройке:
http://excelvba.ru/programmes/PastePictures
Дублировать её функционал в парсере я не хочу.

Добрый день Игорь. В программе есть возможность вставить изображение в ячейку. Скажем я получил ссылку на изображения. Но хочу чтоб вместо ссылки там стояла картинка. Если можно то с заданными мной размерами. Это есть в функционале программы?

Подскажите пожалуйста, а если на странице указан пейджер не в виде перечня всех страниц, а просто текущая страница и две стрелки "вперед" и "назад" - как в таком случае настроить? Идентификатор пейджера "?page="
Парсер выдает только первую страницу и вторую, а их намного больше

Спасибо

Последним действием перед выводом на лист добавьте действие "Добавить текст ДО или ПОСЛЕ" и в параметр "ДО" поставьте апостроф - '
Сам апостроф в ячейке не отображается (его видно только в строке формул), при этом значение воспринимается как текстовое.

В Excel, если попробовать ввести штрих-код 03836725 (с одного из сайтов), то ноль пропадает. Если же предварительно установить формат ячейки "текстовый", то штрих-код корректно сохраняется в ячейке. Вопрос: можно ли каким-то образом парсеру задать в настройках автоматически форматировать столбец как "текстовый", в который вывожу штрих-код (чтобы всякий раз вручную не устанавливать заранее формат)?

Игорь, данная функция была бы очень полезна, сделайте ее пожалуйста.

Виталий, пока нет такой возможности, но в планах есть реализовать (по срокам пока ничего не могу сказать)

Здравствуйте.

Настроил в экселе таблицу для мониторинга цен клиентов (слежу за демпингом цен). Сайтов достаточно много и парсер запускает их все по очереди (обработав первый переходит ко второму). Есть ли возможность запуска нескольких потоков (парсеров) одновременно. Например, чтобы не ждать очередь, пока по очереди "пропарсятся" 10 сайтов, а запустить все в 10 потоков?

Не знаю, что вы подразумеваете под словом «автоматически», - но возможно

Автоматически можно настроить сбор данных?

Добрый день, Евгений!

Напишите мне в скайп (мои контакты можно увидеть, если кликнуть по ссылке в заголовке сообщения), я Вам расскажу про это вкратце.

Добрый день!

Хотелось бы простой пример по подключению плагина. 2 месяца прошло с релиза а инструкции нет.

Добрый день, Николай!

Видеоуроков на эту тему нет. Парсер может заносить данные в поля через Internet Explorer (это штатный функционал), при помощи макросов можно отправлять файл по FTP на сервер, так же некоторые варианты можно реализовать при помощи дополнительного плагина, позволяющего управлять мышью и клавиатурой.

Но в целом парсер предназначен в первую очередь для скачивания информации с сайтов, а не для заливки данных на сайт.

Описывайте, что именно нужно сделать, через форму оформления заказа, дадим более четкий ответ.

Игорь, здравствуйте!
Возможно ли с помощью Вашей программы заливать данные с эксель на сайт?
Если да, имеется ли видео урок?
Заливать буду сам так как необходимо на постоянной основе.

Добрый день, Игорь!

Да, для яндекса реально сделать парсер. Капча будет в любом случае, поэтому надо настраивать её решение. И сам сайт часто меняется.

Не все дополнительные параметры нужно передавать, часть можно игнорировать.

В общем, сложная настройка, если хотите самостоятельно делать.

Добрый день.
Подскажите делали ли вы парсер на поисковую выдачу яндекса, реально ли это? Яндекс передает несколько post запросов и не понятно какой из них необходим для работы парсера ( без него естественно капча и бан). Кроме того, вообще непонятные дополнительные параметры в Request URL.

Виталий, для ссылок из столбца, пока нет возможности использовать многопоточную загрузку.
Но появится в новый версиях программы, - есть в планах сделать такое.

Здравствуйте.
Список с ссылками не заполнен последовательно в ячейках, есть разрывы. То есть ссылки (условно 100 шт.) находятся в диапазоне 200 ячеек, есть пустые ячейки между ссылками.
В таком случае возможно реализовать мультипоточную загрузку одним из методов, которые вы описали или нет? Если возможно, подбросьте, пожалуйста, идейку, попробую что-то нагуглить.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  ____          ____       _              _    
| _ \ ____ / ___| / \ __ _ | | __
| |_) | |_ / \___ \ / _ \ / _` | | |/ /
| _ < / / ___) | / ___ \ | (_| | | <
|_| \_\ /___| |____/ /_/ \_\ \__, | |_|\_\
|___/
Введите код, изображенный в стиле ASCII-арт.