Парсинг сайтов

Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.

Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.

Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.

На нашем сайте вы можете:

 

Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru

 

Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.

 

Комментарии

Здравствуйте, Сергей.
Если с настройкой что-то не получается, - можем настроить под заказ
заказы на парсер принимаются в таком виде
https://excelvba.ru/programmes/Parser/order
(по каждому сайту - отдельный заказ)

Парсер не передает из уровня в подуровень данные

Такой проблемы в программе нет
Иначе бы я об этом давно знал (десятки тысяч различных парсеров работают на тысячах разных компов, — проблема бы неоднократно уже вылезла)

когда я вставляю в эксель массив данных то через строку получаем ячейки с линейкой из знаков равно

Добавьте действие «Объединить (сцепить) элементы массива», указав разделитель {NL}
И получите нормальный текст для копирования

Добрый вечер Игорь.
Сегодня я весь день промучался с парсером.
И у меня ничего толком не получилось.
Сначала у меня не грузились сайты, через стандартное действие загрузить по ссылке.
На что вы мне сказали решения этой пробьемы нет. Я решил грузить сайты через действие Открыть в ИЕ.вроде бы загрузилось. но тут я стокнулся с еще более сложной проблемой которую счиатю можно отнести к коду парсера. Парсер не передает из уровня в подуровень данные. не знаю изза чего это но раньше такого не было в предыдущей версии которой я пользовался пол года назад последний раз .
чтобы более понять это вот пример.
у меня 3 уровня созданных. я делаю тест первого уровня он получает страницу сайта затем жму перейти на следующий уровень он открывает новый уровень но без каких либо действий в нем. я сначала подумал что у меня чтото не так создал действия в этом подуровне жму сохранить итон бац предлагает сохранить новый парсер. не знаю что этоьтакое может где то надотпоставить галочки хз.
затем мне крайне не понавилось что массив представлен потновому в результатах парсинга. каждая строка массива через линейку из знаков равнь. раньше можно было втручном режиме обрабатывать страницы и копировать из результатов массив а теперь я мне этотнеудобно. когда я вставляю в эксель массив данных то через строку получаем ячейки с линейокй из знаков равно. тестил старый парсер который раньше успешно создал мне ьаблицу из инет магаза и опять не работает. что за чертовщина. ничего сегодня не работает.

Благодарю!

Здравствуйте, Стас.
Этим действием воспользуйтесь:
https://excelvba.ru/programmes/Parser/actions/CreateWorksheet
Применяется в исходных данных, на подуровне где категории перебираются (обычно второй подуровень действий)
Если сами не разберётесь - можем настроить под заказ.

Добрый день!
Тестирую и уперся. Может ли программа создавать лист на основании категории сайта, а после активировать его и помещать товар и все данные только данной категории. При переходе к следующей категории, действие по созданию и активации листа повторяется. На каком этапе настройки парсера нужно это сделать? И какими действиями

Здравствуйте, Александр.
Всё это можно сделать.
Файл НЕ НАДО загружать действием «Загрузить исходный код страницы». Нужно получать ссылку на скачивание файла, и настраивать загрузку файла по этой ссылке (вкладка 'Загрузка файлов' в настройках парсера)
Ссылку на скачивание можно вытащить откуда угодно, в том числе и со страницы Яндекс.Диска.
Если сами не сможете настроить, - можем настроить под заказ.

Скажите пожалуйста, возможно-ли при помощи парсера, скачать генерируемый из ЛК сайта zip файл имеющий такой вид: https://mysite/ru/api/v1.0/discounted.php?type=csv&compression=zip Получается настроить вход в ЛК, а при действии "загрузись ИСХОДНЫЙ КОД веб-страницы" парсер что-то усиленно думает и таки скачивает (явно тат самый zip файл, потому как файл на 36МБ и в "Результат обработки" помещается огромное количество строк) в текстовом виде. Как правильно скачать такой файл? И, что бы два раза не вставать, возможно ли вытаскивать ссылку на скачивание (и соответственно скачивать файл по этой ссылке) с ЯндексДиск?

Виталий, да, конечно можно.
IE тут вообще не нужен
Могу настроить под заказ.

Игорь, здравствуйте еще раз.
Скажите, есть возможность получить информацию с сайта intertop.ua, к примеру, со страницы https://intertop.ua/catalog/odezhda/detskaya/dkny/ IE отказывается грузить товары на этой странице.

Игорь, огромное спасибо.
Когда знаешь где искать, решение не кажется уже таким сложным. Все нашел, все подобрал. Там, оказывается, еще параметр load-modification/18275/ модификатора менялся по разным ссылкам, но он так же легко ищется как и параметр размера.

Еще раз огромное спасибо, без вашей подсказки сломал бы голову.

Здравствуйте, Виталий
При щелчке на любом размере выполняется POST запрос на адрес вида
https://shopmam.com.ua/catalog/load-modification/18275/razmer/
где есть вся информация по этому размеру, и остальным размерам
Можно те же параметры передать GET запросом — обычной загрузкой страницы по ссылке вида
https://shopmam.com.ua/catalog/load-modification/18275/razmer/?param%5Br...
(гляньте по последней ссылке исходный код - там есть все что нужно)

И посмотрите вторую видеоинструкцию, про POST запросы и загрузку страниц:
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon

Игорь, доброго времени суток.
Все сайты как сайты, хранят ссылки на товары в теле html, но нашел сайт, где ссылку на размер товара можно получить только java скриптом.
Для примера https://shopmam.com.ua/reima-bosonozhki-bungee-569339-3160/
Подскажите, пожалуйста, куда можно копнуть, чтобы получить список ссылок на все размеры, если, конечно, с помощью парсера их можно получить.

Какая-то прям совсем нетривиальная ситуация для меня...

Илья, вопрос не понятен. Не пишу
Но в моей программе есть похожий функционал (тоже можно заполнять формы на сайте, как и в ZennoPoster)

Здравствуйте!
Вы под зеннопостер не пишете?

Да, возможно

Доброе время суток если требуется , выгрузить объявления с одного сайте о продаже к примеру недвижимости , возможно ли это используя парсер?

Евгений, я не знаю, что и как у вас там настроено, потому, конкретнее подсказать не могу.
Обычно такое делается в выводе на лист.
Если сами не разберетесь, — можем настроить под заказ.

Игорь, еще раз здравствуйте.
С набором действий "*1000" все понятно - это делается в единственном месте.
А вот далее: "Пару действий нужно добавить"... (проверка и, собственно, вызов этого набора - это тоже понятно)
Извините за непонятливость, но в каком разделе надо делать "Пару действий", в "Основных", в "Дополнительных", "Вывод на лист"…, где именно?
Перепробовал разные варианты - не работает

Здравствуйте, Евгений
Пару действий нужно добавить.
Первое - проверка на выполнение условия (если число меньше 100, или если содержит запятую), то выполнить набор действий «Умножить на 1000»
Ну и создаёте одноименный набор действий, с одной командой (действие Умножение чисел)

Игорь, здравствуйте
Подскажите, пожалуйста, как решить задачку:
Парсим сайт, получаем некие значения:
Товар1|30 000
Товар2|57,23
По умолчанию вывод в таблицу происходит так:
Товар1 Товар2
30 000 57,23

Как в итоге сделать, чтобы у Товара2 при выводе на лист цена тоже отражалась не в долях тысяч (57,23), а в абсолютном числе рублей (57 230), по аналогии с Товаром1 (30 000, которые изначально на сайте так и проставлены в явном виде)

Спасибо

Ответил вам на почту ещё вчера.
Проверьте папку СПАМ

Здравствуйте. Есть страница https://agrovektor.ru/category/73-elevatory.html, как получить все пейджеры страницы?

Значит, что-то не так настроили.
Можем настроить под заказ.

Почему то дает такое сообщение:

Не задан URL для GET запроса
Источник ошибки: Уровень 2, действие #5

После запуска готового парсера

Технически (в плане настройки) - реально вполне.
Парсер может вбивать название из столбца в поиск по сайту, брать первый товар из результатов поиска, и собирать данные из карточки товара.
Практически - может быть всё сложнее или вообще нереально. Так как на разных сайтах названия по-разному написаны, и есть большая вероятность, что по названию на этих других 2-3 сайтах поиск работать не будет (или будет, но не для всех товаров)

Проверьте, ищется ли вручную всё как вы хотели. Если работает, - то парсер без проблем настроим.

Добрый день
Есть таблица (выгруженная с сайта). В ней есть имя продукта и столбцы с характеристиками. Не все характеристики можно взять из одного реурса. Порой требуется просматривать 2-3.
В итоге, по имени из таблицы, нужно подставить значения в столбцы из других источников. Это реально сделать?

Алина, да, можно
Заказы на парсер принимаются в таком виде
http://excelvba.ru/programmes/Parser/order

Будет заказ — тогда и озвучим стоимость

Добрый день!
Подскажите, можно ли заказать парсинг с AliExpress? Сколько это будет стоить?

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _   _____ __  __                              
/ | |__ / \ \/ / __ __ _ __ _ __ ___
| | / / \ / \ \ /\ / / | '__| | '_ ` _ \
| | / /_ / \ \ V V / | | | | | | | |
|_| /____| /_/\_\ \_/\_/ |_| |_| |_| |_|
Введите код, изображенный в стиле ASCII-арт.