Парсинг сайтов

Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.

Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.

Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.

На нашем сайте вы можете:

 

Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru

 

Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.

 

Комментарии

Передаю в загрузку файлов массив url картинок, для имени файла выбираю "Формировать имя по маске" и указываю image_{item_index}.jpg
Парсер загружает все картинки, но item_index не увеличивается и всегда=1. И таким образом, из массива остается только последняя картинка, предыдущие затираются.
Невозможно загрузить несколько картинок, используя маску.

Не знаю, что это за ошибка, ранее не сталкивался.
Скачайте заново надстройку с сайта. Если не поможет, напишите на почту или в скайп, выслав скриншот ошибки.

Ранее все работало хорошо, теперь при попытке запустить Fill Documents выскакивает ошибка и не запускаются надстройки Visual Basic "Class not registered....." Как быть?

Евгений, я же не телепат, чтобы угадать, что как там у вас настроено, и что где там не выводится.
Если была бы проблема в программе, - мне уже сотни людей написали бы об этом.
Если нужно перенастроить парсеры, чтобы решить эту проблему, - высылайте на почту файлы настроек парсеров, и пишите как увидеть проблему (что выводится сейчас, что должно выводиться)

<<Значит, что-то настроили не так.
<<Могу настроить под заказ.

Cделал парсер еще одного сайта, тоже самое, пропускает карточки товара.. (с отключенным антивирусом тоже)
сайты простые вхлам, без наворотов, типа как у Вас в самом первом примере программы.
Может настройки какие или из-за них? я ставил выводить заголовки, увеличить таймаут, и отмечал окно об ошибке.
Потом проверил на старой версии программы парсера (19 год) - всё работает!

Значит, что-то настроили не так.
Могу настроить под заказ.

при переходе на карточку товара (загрузить исходный код страницы) парсер выкидывает на категорию товаров.. Если смотреть настройки парсера по шагам действий, код страницы в результатах обработки показывает, но при сохранении в буфер, вместо кода сохраняет ссылку на категорию.

Например, можете в столбце Артикул использовать это действие (со вторым параметром «да»):
https://excelvba.ru/programmes/Parser/actions/IncreaseCounter

подскажите пожалуйста,КАК сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Можно, но это плохая идея (завтра порядок товаров изменится, и артикулы другие будут)
Лучше формировать артикул из названия или из ссылки на товар.

Парсю сайт, на котором нету артикулов. Можно ли как-нибудь сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Здравствуйте, Дмитрий.
Не видя, что как вы там настраиваете, подсказать не могу (много разных способов это сделать, в зависимости от того как настроено остальное)
Можем настроить под заказ.

Здравствуйте. При выводе на лист мне необходимо что бы получаемый массив товаров нумеровался от 1 до последнего. Номера в отдельном столбце. Я хочу это сделать что бы задать имена загружаемым картинкам 1,2,3,4 и так далее, что бы номер картинки соответствовал номеру товара.
Подскажите пожалуйста к каким настройкам обращаться. Благодарю!

Александр, можно формировать массив имен файлов из ссылок (и в загрузках указывать ссылку на переменную, содержащую имена файлов)
Но я бы не заморачивался, — можно все картинки сохранять с расширением jpg (и браузеры, и Windows, не смотрят на расширение файла, и благополучно отобразят картинки разных форматов, даже если у всех них одно и то же расширение jpg)

При загрузке изображений требуется задать название папки, равное столбцу. Соответственно, я создаю маску допустим {3}\{item_index}.jpg. Но что делать если картинки нескольких расширений, а не только jpg, на страницах присутствуют и gif и png

Здравствуйте, Виталий.
Надо сделать доп. парсер, который по очереди запускает все остальные.
Если сами не разберетесь, - напишите на почту, вышлю такой парсер

Добрый день. Настроил несколько парсеров, которые собирают информацию в одну таблицу. Как сделать запуск сразу всех "одной кнопкой"? Спасибо.

Александр, используйте прокси-серверы

А можно ли как-то обойти 403 в вашем парсере? После парсинга 500+ товаров выдало 403 ошибку

Это на 95% зависит от сайта, и объёма страниц.
Время работы парсера примерно равно времени загрузки страниц сайта (на обработку и вывод на лист уходит обычно около 10% времени)

Какая производительность парсера? Сколько страниц пасрсит в секунду?

Здравствуйте, Сергей.
Если с настройкой что-то не получается, - можем настроить под заказ
заказы на парсер принимаются в таком виде
https://excelvba.ru/programmes/Parser/order
(по каждому сайту - отдельный заказ)

Парсер не передает из уровня в подуровень данные

Такой проблемы в программе нет
Иначе бы я об этом давно знал (десятки тысяч различных парсеров работают на тысячах разных компов, — проблема бы неоднократно уже вылезла)

когда я вставляю в эксель массив данных то через строку получаем ячейки с линейкой из знаков равно

Добавьте действие «Объединить (сцепить) элементы массива», указав разделитель {NL}
И получите нормальный текст для копирования

Добрый вечер Игорь.
Сегодня я весь день промучался с парсером.
И у меня ничего толком не получилось.
Сначала у меня не грузились сайты, через стандартное действие загрузить по ссылке.
На что вы мне сказали решения этой пробьемы нет. Я решил грузить сайты через действие Открыть в ИЕ.вроде бы загрузилось. но тут я стокнулся с еще более сложной проблемой которую счиатю можно отнести к коду парсера. Парсер не передает из уровня в подуровень данные. не знаю изза чего это но раньше такого не было в предыдущей версии которой я пользовался пол года назад последний раз .
чтобы более понять это вот пример.
у меня 3 уровня созданных. я делаю тест первого уровня он получает страницу сайта затем жму перейти на следующий уровень он открывает новый уровень но без каких либо действий в нем. я сначала подумал что у меня чтото не так создал действия в этом подуровне жму сохранить итон бац предлагает сохранить новый парсер. не знаю что этоьтакое может где то надотпоставить галочки хз.
затем мне крайне не понавилось что массив представлен потновому в результатах парсинга. каждая строка массива через линейку из знаков равнь. раньше можно было втручном режиме обрабатывать страницы и копировать из результатов массив а теперь я мне этотнеудобно. когда я вставляю в эксель массив данных то через строку получаем ячейки с линейокй из знаков равно. тестил старый парсер который раньше успешно создал мне ьаблицу из инет магаза и опять не работает. что за чертовщина. ничего сегодня не работает.

Благодарю!

Здравствуйте, Стас.
Этим действием воспользуйтесь:
https://excelvba.ru/programmes/Parser/actions/CreateWorksheet
Применяется в исходных данных, на подуровне где категории перебираются (обычно второй подуровень действий)
Если сами не разберётесь - можем настроить под заказ.

Добрый день!
Тестирую и уперся. Может ли программа создавать лист на основании категории сайта, а после активировать его и помещать товар и все данные только данной категории. При переходе к следующей категории, действие по созданию и активации листа повторяется. На каком этапе настройки парсера нужно это сделать? И какими действиями

Здравствуйте, Александр.
Всё это можно сделать.
Файл НЕ НАДО загружать действием «Загрузить исходный код страницы». Нужно получать ссылку на скачивание файла, и настраивать загрузку файла по этой ссылке (вкладка 'Загрузка файлов' в настройках парсера)
Ссылку на скачивание можно вытащить откуда угодно, в том числе и со страницы Яндекс.Диска.
Если сами не сможете настроить, - можем настроить под заказ.

Скажите пожалуйста, возможно-ли при помощи парсера, скачать генерируемый из ЛК сайта zip файл имеющий такой вид: https://mysite/ru/api/v1.0/discounted.php?type=csv&compression=zip Получается настроить вход в ЛК, а при действии "загрузись ИСХОДНЫЙ КОД веб-страницы" парсер что-то усиленно думает и таки скачивает (явно тат самый zip файл, потому как файл на 36МБ и в "Результат обработки" помещается огромное количество строк) в текстовом виде. Как правильно скачать такой файл? И, что бы два раза не вставать, возможно ли вытаскивать ссылку на скачивание (и соответственно скачивать файл по этой ссылке) с ЯндексДиск?

Виталий, да, конечно можно.
IE тут вообще не нужен
Могу настроить под заказ.

Игорь, здравствуйте еще раз.
Скажите, есть возможность получить информацию с сайта intertop.ua, к примеру, со страницы https://intertop.ua/catalog/odezhda/detskaya/dkny/ IE отказывается грузить товары на этой странице.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
       __     __  _____     _    ____    ___  
___ \ \ / / |_ _| (_) / ___| / _ \
/ __| \ \ / / | | | | | | | | | |
\__ \ \ V / | | | | | |___ | |_| |
|___/ \_/ |_| _/ | \____| \__\_\
|__/
Введите код, изображенный в стиле ASCII-арт.