Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция по настройке парсера сайтов для формирования прайса с интернета-магазина:

 

Дополнительная видеоинструкция: загрузка страниц и авторизация на сайте

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 1500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (2500 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Комментарии

3.1.10 + реализовано автоматическое скачивание приобретенных плагинов при активации программы.

Где можно посмотреть, скачать сами плагины? Программа приобретена.

Добрый день, характеристики товара отображается вот так [url=https://imgbb.com/][img]https://image.ibb.co/mTVRbw/Image_019.png[/img][/url] как сделать что бы значения были рядом?

Понял, спасибо, в поле "если найдено" я ставлю -3 (после чего парсер не выполняет следующие действия, а берет из вышестоящего уровня следующий элемент массива и его опять начинает проверять в действии "поиск значения в столбце"), а что нужно поставить в поле "если НЕ найдено ", чтобы с данными начало работать следующее действие?

Для такого количества вариантов, используйте третий способ (таблицу замен)

но чтобы теперь пропускать уже спаршенные страницы

это делается совершенно иначе
поиск ссылки на страницу в заданном столбце
(действие есть такое, - поиск значения в столбце)
если ссылка найдена на листе - страницу не обрабатываем (останов с параметром -3, без вывода на лист)

Я делаю по 2му варианту. У меня вопрос - есть ли ограничения либо на кол-во символов, либо на кол-во условий (те что через вертикальную черту прописывается). К примеру мне надо чтобы этих вариантов через черту было 8000. Это возможно? или нужно разбить на несколько действий подряд (опять же вопрос - по сколько условий на действие нужно оставлять). Вообще у меня задача сейчас такая. Есть таблица 8000 строк - во время парсинга были пропуски из-за незагруженных страниц - я хочу опять пройти по сайту парсером, но чтобы теперь пропускать уже спаршенные страницы. Если есть более логичные способы буду рад если напишите.

Есть несколько вариантов решения, например:
1) действие "проверка на выполнение условия" - несколько действий подряд
2) действие "проверка на соответствие маске" - несколько условий подряд через вертикальную черту
3) действие "применить таблицу замен" - и список замен сделать, через меню Дополнительно - Таблицы замены..

Здравствуйте, как в "проверка на выполнение условия" проверить массив данных, из которого нужно удалить несколько элементов, для каждого из которых "значение для сравнения" разное. Другими словами мне нужно просто написать в поле "значение для сравнения" несколько значений через "или". Возможно ли это?

Здравствуйте. Вопрос - к примеру на сайте есть Ссылка "Архитектура" которая ведет на страницу сайта site.com/architecture. Как мне при парсинге вставить значение в ячейку также как на сайте, чтобы в ячейке было написано "Архитектура" с гиперссылкой на site.com/architecture. А у меня получается либо текст с сайта собирать либо текст ссылки вида site.com/architecture

Насколько часто - не помню, давно делал. Но не очень часто.
После покупки программы, это сообщение исчезнет.

Как часто при работе парсера в пробном периоде выходит окно - "вы используете пробную версию парсера?"

Посмотрите видеоинструкцию по настройке авторизации, - и поймете, что не так сделали
http://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon

Здравствуйте. Как быть, если данные, которые мне нужно спарсить доступны только для залогиненных пользователей. Я запустил internet explorer, зашел на нужный сайт и авторизовался на нем. Но это не помогло. Парсер бегает по сайту как не зарегистрированный пользователь

Денис, это делается в 3 действия:

Исходное значение
Текст (длиной 16 символов)
Действие Параметр Значение Результат
Форматирование числа / даты Формат 0.000000 Текст (длиной 12 символов)
Произведение чисел Множитель 86400 Число (длиной 10 символов)
Количество цифр после запятой 0
Сумма чисел Сколько прибавить или вычесть -2209161600 Число (длиной 10 символов)
Количество цифр после запятой 0

Добрый день!

Спасибо за парсер! Вопрос, как можно, в ячейке с датой вида "20.12.2017 20:48" перевести ее в unix time stamp формат вида "1516303320"?

Здравствуйте. Подскажите а может ли программа по окончанию работы парсера выслать не файл excel а текстовое сообщение на почту. Через почтовую программу.

Решение проблемы описано здесь:
http://excelvba.ru/faq/excel_error
(причина: либо антивирус повредил файл при скачивании или при запуске, либо не установлен компонент Microsoft Visual Basic)

Здравствуйте. Я запустил файл и вышло вот это сообщение
http://joxi.ru/v29axJZSGgJVo2
Нажал включить, после этого такое сообщение
http://joxi.ru/Vm6LOb0TxNYODA

С чем связана эта ошибка и что мне делать?

При получении исходного кода с помощью парсера он получает только код нескольких скриптов. То же самое и в браузере при Ctrl+U

Нет, парсер работает только из под Windows, без вариантов

Здравствуйте вы делаете Парсeр для Mac OS Excel?

Валерий, не существует веб-страниц с защищённым от просмотра кодом.
Исходный код любой страницы можно посмотреть

Здравствуйте!
Подскажите можно ли вашим парсером получить исходный код страницы если он защищен от данного просмотра?

заказы на парсер принимаются в таком виде

будет заказ - тогда смогу озвучить стоимость

Сколько будет стоить настраивание под заказ?

Артём, да, можно. Парсер всё это умеет. Нужно просто правильно настроить

при парсинге в выводе ставлю тип элемента "p"

вы берете все подряд со страницы - конечно, много лишнего попадет

Если готовы приобрести программу, - напишите в скайп, подскажу, что как сделать.

Здравствуйте! Пытаюсь парсить архив мероприятий кассы.ру (просто так открыть нельзя, только прописывая в адресной строке нужный месяц и год) и при парсинге в выводе ставлю тип элемента "p", тип результата "convert to text", но тут загвоздка в том, что в этом элементе ещё много ненужного текста (нужно место вместе с датой и стоимость). Можно ли как-то парсер научить отбирать нужную информацию и разбивать на столбцы?

Не работает, потому что в исходном коде страницы нет этого тега, который вы ищете (а в браузере - есть, - там скрипт отрабатывает, выводя цену)
Вы тестируете действие на коде странице, загруженном парсером?
Откройте этот HTML код в блокноте, поиском найдите цену, - и посмотрите, где она там.

PS: могу настроить под заказ.

Не зробит( может существует способ подбора текста по его формату? цвет, размер, как в моём случае?!

Просто используйте действие из раздела HTML «Взять цену товара»
Если найдёт не ту цену, что надо, в качестве параметра укажите class=item-price

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _   _                 __        __   ____ 
/ | | |_ ____ _ __ \ \ / / / ___|
| | | __| |_ / | '__| \ \ /\ / / | | _
| | | |_ / / | | \ V V / | |_| |
|_| \__| /___| |_| \_/\_/ \____|
Введите код, изображенный в стиле ASCII-арт.