Парсинг сайтов

Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.

Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.

Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.

На нашем сайте вы можете:

 

Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru

 

Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.

 

Комментарии

В браузере смотрите, какие запросы выполняют скрипты, и в парсере выполняете такие же щапросы (аналогично авторизации)
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon

Прикол в том, что все больше и больше сайтов появляются с JS и очень часто стали встречаться допустим скрытые характеристики. Хочется научиться делать самому. Парсер покупал не для того чтобы каждый раз заказывать его настройку. Раньше у вас было видео по пост запросам и что-то вроде получалось, теперь не могу найти его на вашем сайте. Можете сооринтировать?

Здравствуйте
Тут нет какого-то единого способа получения данных. От конкретного сайта зависит, что и как делать.
Можем настроить под заказ.

Добрый день, подскажите где почитать про то как открывать табы на сайтах парсером (совершить действие). В JS вообще не соображаю. Есть страница, часть информации на странице грузиться просто как обычно и я спокойной забираю её, а часть подгружается с помощью JavaScript (есть дополнительные скрытые табы, при нажатии на которые открываются дополнительные характеристики). Подскажите как открыть их парсером!

Здравствуйте, Антон
Да, парсер может всё это собрать, и вывести в любом нужном вам виде.
Можем настроить под заказ.

Добрый день!

Такой вопрос.
Задача собрать цены с сайта поставщика.
Поэтапно дошел до карточки товара, в соответствие с алгоритмом.
Все работает, цены выгружаются в excel. Но в некоторых позициях
внутри карточки товара есть еще разделение товара на цвета, причем,
каждый цвет это как отдельный товар со своим артикулом.
https://carfashion-rus.ru/katalog/nakidki/carfashion-premium/433163--bul...
Функционал парсера рассчитан на работу с таким товаром?
есть функция работы со страницами пейджера, а через что можно
реализовать данный момент (если можно)?

Добрый день, подскажите, не могу понять как обойти ограничение в прокрутке. Вроде бы сделал парсинг, сайт, где ещё есть кнопка показать ещё. Я конечно ещё не понял, как сделать, чтобы автоматом все переменные страницы поставлялись. Но дилемма в другом, ограничение в 199 страниц, после 199 страницы выходит ошибка 500. На сайте просто на прогружается дальше, а в парсинге результат неправильный.

Николай, такой возможности нет в программе.
Вручную можно запустить несколько парсеров параллельно (в нескольких отдельно запущенных Экселях), но эта возможность недокументирована (и через интерфейс программы так не запустить сразу несколько)

Добрый день!
Подскажите, а есть ли такой функционал, чтобы запускать несколько парсеров не по очереди, а одновременно или параллельно? У меня тяжелые сайты доноры, 11 шт., грузятся по 10-20 мин, уходит несколько часов на это.

Александр, надо не маску имени файла задавать, а сформировать массив с «правильными» именами файлов,
и передать этот массив в это поле через переменную.

При загрузке картинок, требуется выводить в каждую папку свой файл. В настойках парсера во вкладке загрузка файлов-имя файлов делаю маску вида {номер_столбца}\{item_index} при этом картинки скачиваются файлами, если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.jpg - то, скачиваются все картнки в формате jpg. Если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.png - то, скачиваются все картнки в формате png. Вопрос: что поставить после {item_index} чтобы скачивались картинки со своим расширением, то ест там есть и jpeg и png,gif

Александр, не могу подсказать. Я не знаю, что такое «элементы массива» в таблице Excel.

Подскажите плз. Имеется таблица, в которой получается допустим 20 элементов массива, внутри каждого массива 3 значения, нужно из каждого массива убрать второе, как это сделать?

Передаю в загрузку файлов массив url картинок, для имени файла выбираю "Формировать имя по маске" и указываю image_{item_index}.jpg
Парсер загружает все картинки, но item_index не увеличивается и всегда=1. И таким образом, из массива остается только последняя картинка, предыдущие затираются.
Невозможно загрузить несколько картинок, используя маску.

Не знаю, что это за ошибка, ранее не сталкивался.
Скачайте заново надстройку с сайта. Если не поможет, напишите на почту или в скайп, выслав скриншот ошибки.

Ранее все работало хорошо, теперь при попытке запустить Fill Documents выскакивает ошибка и не запускаются надстройки Visual Basic "Class not registered....." Как быть?

Евгений, я же не телепат, чтобы угадать, что как там у вас настроено, и что где там не выводится.
Если была бы проблема в программе, - мне уже сотни людей написали бы об этом.
Если нужно перенастроить парсеры, чтобы решить эту проблему, - высылайте на почту файлы настроек парсеров, и пишите как увидеть проблему (что выводится сейчас, что должно выводиться)

<<Значит, что-то настроили не так.
<<Могу настроить под заказ.

Cделал парсер еще одного сайта, тоже самое, пропускает карточки товара.. (с отключенным антивирусом тоже)
сайты простые вхлам, без наворотов, типа как у Вас в самом первом примере программы.
Может настройки какие или из-за них? я ставил выводить заголовки, увеличить таймаут, и отмечал окно об ошибке.
Потом проверил на старой версии программы парсера (19 год) - всё работает!

Значит, что-то настроили не так.
Могу настроить под заказ.

при переходе на карточку товара (загрузить исходный код страницы) парсер выкидывает на категорию товаров.. Если смотреть настройки парсера по шагам действий, код страницы в результатах обработки показывает, но при сохранении в буфер, вместо кода сохраняет ссылку на категорию.

Например, можете в столбце Артикул использовать это действие (со вторым параметром «да»):
https://excelvba.ru/programmes/Parser/actions/IncreaseCounter

подскажите пожалуйста,КАК сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Можно, но это плохая идея (завтра порядок товаров изменится, и артикулы другие будут)
Лучше формировать артикул из названия или из ссылки на товар.

Парсю сайт, на котором нету артикулов. Можно ли как-нибудь сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Здравствуйте, Дмитрий.
Не видя, что как вы там настраиваете, подсказать не могу (много разных способов это сделать, в зависимости от того как настроено остальное)
Можем настроить под заказ.

Здравствуйте. При выводе на лист мне необходимо что бы получаемый массив товаров нумеровался от 1 до последнего. Номера в отдельном столбце. Я хочу это сделать что бы задать имена загружаемым картинкам 1,2,3,4 и так далее, что бы номер картинки соответствовал номеру товара.
Подскажите пожалуйста к каким настройкам обращаться. Благодарю!

Александр, можно формировать массив имен файлов из ссылок (и в загрузках указывать ссылку на переменную, содержащую имена файлов)
Но я бы не заморачивался, — можно все картинки сохранять с расширением jpg (и браузеры, и Windows, не смотрят на расширение файла, и благополучно отобразят картинки разных форматов, даже если у всех них одно и то же расширение jpg)

При загрузке изображений требуется задать название папки, равное столбцу. Соответственно, я создаю маску допустим {3}\{item_index}.jpg. Но что делать если картинки нескольких расширений, а не только jpg, на страницах присутствуют и gif и png

Здравствуйте, Виталий.
Надо сделать доп. парсер, который по очереди запускает все остальные.
Если сами не разберетесь, - напишите на почту, вышлю такой парсер

Добрый день. Настроил несколько парсеров, которые собирают информацию в одну таблицу. Как сделать запуск сразу всех "одной кнопкой"? Спасибо.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
    _    ___    _____   __  __   _    __ 
(_) / _ \ |_ _| | \/ | | | / _|
| | | | | | | | | |\/| | | | | |_
| | | |_| | | | | | | | | | | _|
_/ | \__\_\ |_| |_| |_| |_| |_|
|__/
Введите код, изображенный в стиле ASCII-арт.