Парсинг сайтов

Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.

Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.

Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.

На нашем сайте вы можете:

 

Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru

 

Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.

 

Комментарии

В общих настройках программы, на вкладке Интерфейс, включите галочку Режим разработчика, — и этот пункт появится.

Раньше как-то можно было открыть настройки парсера в виде отчета в браузере. Сейчас есть это? не могу найти

В старых версиях программы обновление может не срабатывать.
В новых версиях это исправлено (можно будет обновляться нажатием через окно О ПРОГРАММЕ)

НЕ смог автоматически обновиться, пришлось скачивать
ошибка "невозможно скачать файл обновления"

Версия программу-парсера ни на что не влияет.
Если парсер настроен корректно, и никакие дополнительные надстройки не мешают работе парсера, будут выводиться все данные.
Напишите мне в телеграм, попробую помочь.

После обновления, перестал подставлять данные в таблицу. Первые 10 строк заполняет, потом пусто, при этом прогрессбар показывает работу. Делал с разными сайтами. Пробывал удалять парсер, скачивать устанавливать заново, не помогает. Офис 13ый

Здравствуйте, Александр.
Отправьте мне файл настроек этого парсера на почту, я проверю в чем дело

В версии 4.1.2 поломалась авторизация на сайт настроенный в 2017 году и до версии 4.1.0 прекрасно работающий. Откатившись на версию 4.1.0 авторизация снова работает. Версию 4.1.1 не пробовал, с 4.1.0 сразу обновился на 4.1.2

Алексей, задаёте режим «Брать данные с листа Excel из заданного столбца», и используете действия Добавить текст до или после (добавляете ссылку ДО значения из ячейки) и Загрузить страницу по ссылке

Здравствуйте! Подскажите, пожалуйста, какое действие использовать, чтобы спарсить ряд страниц. Есть ссылка на сайт вида https://www.site.ru/ctlg/search.php?search=носки и таблица с товарами (носки, майки, брюки и прочее). Как подставить в ссылку наименования товаров (носки, майки, брюки и прочее). Хорошо если это будет работать в многопоточном режиме. Какие действия использовать?

Значит, что-то не так настроили.
Можем настроить под заказ.

https://www.elektro.ru/catalog/vyklyuchateli_modulnye/ загружает одни и те же товары по полученным ссылкам пейджера.

Смотря что и как настроено. В некоторых случаях можно продолжить с места остановки, в некоторых - нет.

Здравствуйте!
подскажите, у Вас в парсере есть решение, допустим во время работы парсера сделать паузу, или при закрытии/открытии продолжить с того места где прервался парсер?

Александр, под Мак версии надстройки нет и не будет.
На маке можно работать под Parallels

Добрый вечер, работал на вин, перешел на мак, можно ли как то докупить и поставить на него настройку. Если нет, планируете ли вообще делать ее под маки или изучать что-то новое?

В браузере смотрите, какие запросы выполняют скрипты, и в парсере выполняете такие же щапросы (аналогично авторизации)
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon

Прикол в том, что все больше и больше сайтов появляются с JS и очень часто стали встречаться допустим скрытые характеристики. Хочется научиться делать самому. Парсер покупал не для того чтобы каждый раз заказывать его настройку. Раньше у вас было видео по пост запросам и что-то вроде получалось, теперь не могу найти его на вашем сайте. Можете сооринтировать?

Здравствуйте
Тут нет какого-то единого способа получения данных. От конкретного сайта зависит, что и как делать.
Можем настроить под заказ.

Добрый день, подскажите где почитать про то как открывать табы на сайтах парсером (совершить действие). В JS вообще не соображаю. Есть страница, часть информации на странице грузиться просто как обычно и я спокойной забираю её, а часть подгружается с помощью JavaScript (есть дополнительные скрытые табы, при нажатии на которые открываются дополнительные характеристики). Подскажите как открыть их парсером!

Здравствуйте, Антон
Да, парсер может всё это собрать, и вывести в любом нужном вам виде.
Можем настроить под заказ.

Добрый день!

Такой вопрос.
Задача собрать цены с сайта поставщика.
Поэтапно дошел до карточки товара, в соответствие с алгоритмом.
Все работает, цены выгружаются в excel. Но в некоторых позициях
внутри карточки товара есть еще разделение товара на цвета, причем,
каждый цвет это как отдельный товар со своим артикулом.
https://carfashion-rus.ru/katalog/nakidki/carfashion-premium/433163--bul...
Функционал парсера рассчитан на работу с таким товаром?
есть функция работы со страницами пейджера, а через что можно
реализовать данный момент (если можно)?

Добрый день, подскажите, не могу понять как обойти ограничение в прокрутке. Вроде бы сделал парсинг, сайт, где ещё есть кнопка показать ещё. Я конечно ещё не понял, как сделать, чтобы автоматом все переменные страницы поставлялись. Но дилемма в другом, ограничение в 199 страниц, после 199 страницы выходит ошибка 500. На сайте просто на прогружается дальше, а в парсинге результат неправильный.

Николай, такой возможности нет в программе.
Вручную можно запустить несколько парсеров параллельно (в нескольких отдельно запущенных Экселях), но эта возможность недокументирована (и через интерфейс программы так не запустить сразу несколько)

Добрый день!
Подскажите, а есть ли такой функционал, чтобы запускать несколько парсеров не по очереди, а одновременно или параллельно? У меня тяжелые сайты доноры, 11 шт., грузятся по 10-20 мин, уходит несколько часов на это.

Александр, надо не маску имени файла задавать, а сформировать массив с «правильными» именами файлов,
и передать этот массив в это поле через переменную.

При загрузке картинок, требуется выводить в каждую папку свой файл. В настойках парсера во вкладке загрузка файлов-имя файлов делаю маску вида {номер_столбца}\{item_index} при этом картинки скачиваются файлами, если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.jpg - то, скачиваются все картнки в формате jpg. Если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.png - то, скачиваются все картнки в формате png. Вопрос: что поставить после {item_index} чтобы скачивались картинки со своим расширением, то ест там есть и jpeg и png,gif

Александр, не могу подсказать. Я не знаю, что такое «элементы массива» в таблице Excel.

Подскажите плз. Имеется таблица, в которой получается допустим 20 элементов массива, внутри каждого массива 3 значения, нужно из каждого массива убрать второе, как это сделать?

Передаю в загрузку файлов массив url картинок, для имени файла выбираю "Формировать имя по маске" и указываю image_{item_index}.jpg
Парсер загружает все картинки, но item_index не увеличивается и всегда=1. И таким образом, из массива остается только последняя картинка, предыдущие затираются.
Невозможно загрузить несколько картинок, используя маску.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
                                 _   _      _    
__ _ ___ __ _ __ _ | | | | / \
/ _` | / __| / _` | / _` | | |_| | / _ \
| (_| | | (__ | (_| | | (_| | | _ | / ___ \
\__, | \___| \__, | \__, | |_| |_| /_/ \_\
|_| |_| |_|
Введите код, изображенный в стиле ASCII-арт.