Парсинг сайтов

Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.

Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.

Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.

На нашем сайте вы можете:

 

Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru

 

Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.

 

Комментарии

Значит, что-то настроили не так.
Могу настроить под заказ.

при переходе на карточку товара (загрузить исходный код страницы) парсер выкидывает на категорию товаров.. Если смотреть настройки парсера по шагам действий, код страницы в результатах обработки показывает, но при сохранении в буфер, вместо кода сохраняет ссылку на категорию.

Например, можете в столбце Артикул использовать это действие (со вторым параметром «да»):
https://excelvba.ru/programmes/Parser/actions/IncreaseCounter

подскажите пожалуйста,КАК сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Можно, но это плохая идея (завтра порядок товаров изменится, и артикулы другие будут)
Лучше формировать артикул из названия или из ссылки на товар.

Парсю сайт, на котором нету артикулов. Можно ли как-нибудь сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Здравствуйте, Дмитрий.
Не видя, что как вы там настраиваете, подсказать не могу (много разных способов это сделать, в зависимости от того как настроено остальное)
Можем настроить под заказ.

Здравствуйте. При выводе на лист мне необходимо что бы получаемый массив товаров нумеровался от 1 до последнего. Номера в отдельном столбце. Я хочу это сделать что бы задать имена загружаемым картинкам 1,2,3,4 и так далее, что бы номер картинки соответствовал номеру товара.
Подскажите пожалуйста к каким настройкам обращаться. Благодарю!

Александр, можно формировать массив имен файлов из ссылок (и в загрузках указывать ссылку на переменную, содержащую имена файлов)
Но я бы не заморачивался, — можно все картинки сохранять с расширением jpg (и браузеры, и Windows, не смотрят на расширение файла, и благополучно отобразят картинки разных форматов, даже если у всех них одно и то же расширение jpg)

При загрузке изображений требуется задать название папки, равное столбцу. Соответственно, я создаю маску допустим {3}\{item_index}.jpg. Но что делать если картинки нескольких расширений, а не только jpg, на страницах присутствуют и gif и png

Здравствуйте, Виталий.
Надо сделать доп. парсер, который по очереди запускает все остальные.
Если сами не разберетесь, - напишите на почту, вышлю такой парсер

Добрый день. Настроил несколько парсеров, которые собирают информацию в одну таблицу. Как сделать запуск сразу всех "одной кнопкой"? Спасибо.

Александр, используйте прокси-серверы

А можно ли как-то обойти 403 в вашем парсере? После парсинга 500+ товаров выдало 403 ошибку

Это на 95% зависит от сайта, и объёма страниц.
Время работы парсера примерно равно времени загрузки страниц сайта (на обработку и вывод на лист уходит обычно около 10% времени)

Какая производительность парсера? Сколько страниц пасрсит в секунду?

Здравствуйте, Сергей.
Если с настройкой что-то не получается, - можем настроить под заказ
заказы на парсер принимаются в таком виде
https://excelvba.ru/programmes/Parser/order
(по каждому сайту - отдельный заказ)

Парсер не передает из уровня в подуровень данные

Такой проблемы в программе нет
Иначе бы я об этом давно знал (десятки тысяч различных парсеров работают на тысячах разных компов, — проблема бы неоднократно уже вылезла)

когда я вставляю в эксель массив данных то через строку получаем ячейки с линейкой из знаков равно

Добавьте действие «Объединить (сцепить) элементы массива», указав разделитель {NL}
И получите нормальный текст для копирования

Добрый вечер Игорь.
Сегодня я весь день промучался с парсером.
И у меня ничего толком не получилось.
Сначала у меня не грузились сайты, через стандартное действие загрузить по ссылке.
На что вы мне сказали решения этой пробьемы нет. Я решил грузить сайты через действие Открыть в ИЕ.вроде бы загрузилось. но тут я стокнулся с еще более сложной проблемой которую счиатю можно отнести к коду парсера. Парсер не передает из уровня в подуровень данные. не знаю изза чего это но раньше такого не было в предыдущей версии которой я пользовался пол года назад последний раз .
чтобы более понять это вот пример.
у меня 3 уровня созданных. я делаю тест первого уровня он получает страницу сайта затем жму перейти на следующий уровень он открывает новый уровень но без каких либо действий в нем. я сначала подумал что у меня чтото не так создал действия в этом подуровне жму сохранить итон бац предлагает сохранить новый парсер. не знаю что этоьтакое может где то надотпоставить галочки хз.
затем мне крайне не понавилось что массив представлен потновому в результатах парсинга. каждая строка массива через линейку из знаков равнь. раньше можно было втручном режиме обрабатывать страницы и копировать из результатов массив а теперь я мне этотнеудобно. когда я вставляю в эксель массив данных то через строку получаем ячейки с линейокй из знаков равно. тестил старый парсер который раньше успешно создал мне ьаблицу из инет магаза и опять не работает. что за чертовщина. ничего сегодня не работает.

Благодарю!

Здравствуйте, Стас.
Этим действием воспользуйтесь:
https://excelvba.ru/programmes/Parser/actions/CreateWorksheet
Применяется в исходных данных, на подуровне где категории перебираются (обычно второй подуровень действий)
Если сами не разберётесь - можем настроить под заказ.

Добрый день!
Тестирую и уперся. Может ли программа создавать лист на основании категории сайта, а после активировать его и помещать товар и все данные только данной категории. При переходе к следующей категории, действие по созданию и активации листа повторяется. На каком этапе настройки парсера нужно это сделать? И какими действиями

Здравствуйте, Александр.
Всё это можно сделать.
Файл НЕ НАДО загружать действием «Загрузить исходный код страницы». Нужно получать ссылку на скачивание файла, и настраивать загрузку файла по этой ссылке (вкладка 'Загрузка файлов' в настройках парсера)
Ссылку на скачивание можно вытащить откуда угодно, в том числе и со страницы Яндекс.Диска.
Если сами не сможете настроить, - можем настроить под заказ.

Скажите пожалуйста, возможно-ли при помощи парсера, скачать генерируемый из ЛК сайта zip файл имеющий такой вид: https://mysite/ru/api/v1.0/discounted.php?type=csv&compression=zip Получается настроить вход в ЛК, а при действии "загрузись ИСХОДНЫЙ КОД веб-страницы" парсер что-то усиленно думает и таки скачивает (явно тат самый zip файл, потому как файл на 36МБ и в "Результат обработки" помещается огромное количество строк) в текстовом виде. Как правильно скачать такой файл? И, что бы два раза не вставать, возможно ли вытаскивать ссылку на скачивание (и соответственно скачивать файл по этой ссылке) с ЯндексДиск?

Виталий, да, конечно можно.
IE тут вообще не нужен
Могу настроить под заказ.

Игорь, здравствуйте еще раз.
Скажите, есть возможность получить информацию с сайта intertop.ua, к примеру, со страницы https://intertop.ua/catalog/odezhda/detskaya/dkny/ IE отказывается грузить товары на этой странице.

Игорь, огромное спасибо.
Когда знаешь где искать, решение не кажется уже таким сложным. Все нашел, все подобрал. Там, оказывается, еще параметр load-modification/18275/ модификатора менялся по разным ссылкам, но он так же легко ищется как и параметр размера.

Еще раз огромное спасибо, без вашей подсказки сломал бы голову.

Здравствуйте, Виталий
При щелчке на любом размере выполняется POST запрос на адрес вида
https://shopmam.com.ua/catalog/load-modification/18275/razmer/
где есть вся информация по этому размеру, и остальным размерам
Можно те же параметры передать GET запросом — обычной загрузкой страницы по ссылке вида
https://shopmam.com.ua/catalog/load-modification/18275/razmer/?param%5Br...
(гляньте по последней ссылке исходный код - там есть все что нужно)

И посмотрите вторую видеоинструкцию, про POST запросы и загрузку страниц:
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon

Игорь, доброго времени суток.
Все сайты как сайты, хранят ссылки на товары в теле html, но нашел сайт, где ссылку на размер товара можно получить только java скриптом.
Для примера https://shopmam.com.ua/reima-bosonozhki-bungee-569339-3160/
Подскажите, пожалуйста, куда можно копнуть, чтобы получить список ссылок на все размеры, если, конечно, с помощью парсера их можно получить.

Какая-то прям совсем нетривиальная ситуация для меня...

Илья, вопрос не понятен. Не пишу
Но в моей программе есть похожий функционал (тоже можно заполнять формы на сайте, как и в ZennoPoster)

Здравствуйте!
Вы под зеннопостер не пишете?

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
         _   _     _   _   _      _      _ 
__ __ | \ | | (_) | | | | / \ (_)
\ \/ / | \| | | | | |_| | / _ \ | |
> < | |\ | | | | _ | / ___ \ | |
/_/\_\ |_| \_| _/ | |_| |_| /_/ \_\ |_|
|__/
Введите код, изображенный в стиле ASCII-арт.