Парсинг сайтов

Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.

Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.

Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.

На нашем сайте вы можете:

 

Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru

 

Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.

 

Комментарии

Значит, что-то не так настроили.
Можем настроить под заказ.

https://www.elektro.ru/catalog/vyklyuchateli_modulnye/ загружает одни и те же товары по полученным ссылкам пейджера.

Смотря что и как настроено. В некоторых случаях можно продолжить с места остановки, в некоторых - нет.

Здравствуйте!
подскажите, у Вас в парсере есть решение, допустим во время работы парсера сделать паузу, или при закрытии/открытии продолжить с того места где прервался парсер?

Александр, под Мак версии надстройки нет и не будет.
На маке можно работать под Parallels

Добрый вечер, работал на вин, перешел на мак, можно ли как то докупить и поставить на него настройку. Если нет, планируете ли вообще делать ее под маки или изучать что-то новое?

В браузере смотрите, какие запросы выполняют скрипты, и в парсере выполняете такие же щапросы (аналогично авторизации)
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon

Прикол в том, что все больше и больше сайтов появляются с JS и очень часто стали встречаться допустим скрытые характеристики. Хочется научиться делать самому. Парсер покупал не для того чтобы каждый раз заказывать его настройку. Раньше у вас было видео по пост запросам и что-то вроде получалось, теперь не могу найти его на вашем сайте. Можете сооринтировать?

Здравствуйте
Тут нет какого-то единого способа получения данных. От конкретного сайта зависит, что и как делать.
Можем настроить под заказ.

Добрый день, подскажите где почитать про то как открывать табы на сайтах парсером (совершить действие). В JS вообще не соображаю. Есть страница, часть информации на странице грузиться просто как обычно и я спокойной забираю её, а часть подгружается с помощью JavaScript (есть дополнительные скрытые табы, при нажатии на которые открываются дополнительные характеристики). Подскажите как открыть их парсером!

Здравствуйте, Антон
Да, парсер может всё это собрать, и вывести в любом нужном вам виде.
Можем настроить под заказ.

Добрый день!

Такой вопрос.
Задача собрать цены с сайта поставщика.
Поэтапно дошел до карточки товара, в соответствие с алгоритмом.
Все работает, цены выгружаются в excel. Но в некоторых позициях
внутри карточки товара есть еще разделение товара на цвета, причем,
каждый цвет это как отдельный товар со своим артикулом.
https://carfashion-rus.ru/katalog/nakidki/carfashion-premium/433163--bul...
Функционал парсера рассчитан на работу с таким товаром?
есть функция работы со страницами пейджера, а через что можно
реализовать данный момент (если можно)?

Добрый день, подскажите, не могу понять как обойти ограничение в прокрутке. Вроде бы сделал парсинг, сайт, где ещё есть кнопка показать ещё. Я конечно ещё не понял, как сделать, чтобы автоматом все переменные страницы поставлялись. Но дилемма в другом, ограничение в 199 страниц, после 199 страницы выходит ошибка 500. На сайте просто на прогружается дальше, а в парсинге результат неправильный.

Николай, такой возможности нет в программе.
Вручную можно запустить несколько парсеров параллельно (в нескольких отдельно запущенных Экселях), но эта возможность недокументирована (и через интерфейс программы так не запустить сразу несколько)

Добрый день!
Подскажите, а есть ли такой функционал, чтобы запускать несколько парсеров не по очереди, а одновременно или параллельно? У меня тяжелые сайты доноры, 11 шт., грузятся по 10-20 мин, уходит несколько часов на это.

Александр, надо не маску имени файла задавать, а сформировать массив с «правильными» именами файлов,
и передать этот массив в это поле через переменную.

При загрузке картинок, требуется выводить в каждую папку свой файл. В настойках парсера во вкладке загрузка файлов-имя файлов делаю маску вида {номер_столбца}\{item_index} при этом картинки скачиваются файлами, если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.jpg - то, скачиваются все картнки в формате jpg. Если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.png - то, скачиваются все картнки в формате png. Вопрос: что поставить после {item_index} чтобы скачивались картинки со своим расширением, то ест там есть и jpeg и png,gif

Александр, не могу подсказать. Я не знаю, что такое «элементы массива» в таблице Excel.

Подскажите плз. Имеется таблица, в которой получается допустим 20 элементов массива, внутри каждого массива 3 значения, нужно из каждого массива убрать второе, как это сделать?

Передаю в загрузку файлов массив url картинок, для имени файла выбираю "Формировать имя по маске" и указываю image_{item_index}.jpg
Парсер загружает все картинки, но item_index не увеличивается и всегда=1. И таким образом, из массива остается только последняя картинка, предыдущие затираются.
Невозможно загрузить несколько картинок, используя маску.

Не знаю, что это за ошибка, ранее не сталкивался.
Скачайте заново надстройку с сайта. Если не поможет, напишите на почту или в скайп, выслав скриншот ошибки.

Ранее все работало хорошо, теперь при попытке запустить Fill Documents выскакивает ошибка и не запускаются надстройки Visual Basic "Class not registered....." Как быть?

Евгений, я же не телепат, чтобы угадать, что как там у вас настроено, и что где там не выводится.
Если была бы проблема в программе, - мне уже сотни людей написали бы об этом.
Если нужно перенастроить парсеры, чтобы решить эту проблему, - высылайте на почту файлы настроек парсеров, и пишите как увидеть проблему (что выводится сейчас, что должно выводиться)

<<Значит, что-то настроили не так.
<<Могу настроить под заказ.

Cделал парсер еще одного сайта, тоже самое, пропускает карточки товара.. (с отключенным антивирусом тоже)
сайты простые вхлам, без наворотов, типа как у Вас в самом первом примере программы.
Может настройки какие или из-за них? я ставил выводить заголовки, увеличить таймаут, и отмечал окно об ошибке.
Потом проверил на старой версии программы парсера (19 год) - всё работает!

Значит, что-то настроили не так.
Могу настроить под заказ.

при переходе на карточку товара (загрузить исходный код страницы) парсер выкидывает на категорию товаров.. Если смотреть настройки парсера по шагам действий, код страницы в результатах обработки показывает, но при сохранении в буфер, вместо кода сохраняет ссылку на категорию.

Например, можете в столбце Артикул использовать это действие (со вторым параметром «да»):
https://excelvba.ru/programmes/Parser/actions/IncreaseCounter

подскажите пожалуйста,КАК сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Можно, но это плохая идея (завтра порядок товаров изменится, и артикулы другие будут)
Лучше формировать артикул из названия или из ссылки на товар.

Парсю сайт, на котором нету артикулов. Можно ли как-нибудь сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
          _  _     _                       
__ _ | || | | | __ _ _ __ ___
/ _` | | || |_ | | / _` | | '_ \ / __|
| (_| | |__ _| | | | (_| | | |_) | \__ \
\__,_| |_| |_| \__,_| | .__/ |___/
|_|
Введите код, изображенный в стиле ASCII-арт.