Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.
Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.
Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.
На нашем сайте вы можете:
- заказать настройку программы-парсера под интересующие вас сайты
Как заказать парсер сайта (видеоинструкция)
- скачать готовые (ранее настроенные) парсеры
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер - самостоятельно настроить парсер под свою задачу, изучив справку по программе
Скачать пробную версию программы «Парсер сайтов»
Основная видеоинструкция по настройке парсера интернет-магазина
Справка по программе «Парсер сайтов» - заказать парсер XML файлов, парсер PDF файлов, а также файлов формата Word, HTML и TXT
Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru
Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.
Комментарии
В общих настройках программы, на вкладке Интерфейс, включите галочку Режим разработчика, — и этот пункт появится.
Раньше как-то можно было открыть настройки парсера в виде отчета в браузере. Сейчас есть это? не могу найти
В старых версиях программы обновление может не срабатывать.
В новых версиях это исправлено (можно будет обновляться нажатием через окно О ПРОГРАММЕ)
НЕ смог автоматически обновиться, пришлось скачивать
ошибка "невозможно скачать файл обновления"
Версия программу-парсера ни на что не влияет.
Если парсер настроен корректно, и никакие дополнительные надстройки не мешают работе парсера, будут выводиться все данные.
Напишите мне в телеграм, попробую помочь.
После обновления, перестал подставлять данные в таблицу. Первые 10 строк заполняет, потом пусто, при этом прогрессбар показывает работу. Делал с разными сайтами. Пробывал удалять парсер, скачивать устанавливать заново, не помогает. Офис 13ый
Здравствуйте, Александр.
Отправьте мне файл настроек этого парсера на почту, я проверю в чем дело
В версии 4.1.2 поломалась авторизация на сайт настроенный в 2017 году и до версии 4.1.0 прекрасно работающий. Откатившись на версию 4.1.0 авторизация снова работает. Версию 4.1.1 не пробовал, с 4.1.0 сразу обновился на 4.1.2
Алексей, задаёте режим «Брать данные с листа Excel из заданного столбца», и используете действия Добавить текст до или после (добавляете ссылку ДО значения из ячейки) и Загрузить страницу по ссылке
Здравствуйте! Подскажите, пожалуйста, какое действие использовать, чтобы спарсить ряд страниц. Есть ссылка на сайт вида https://www.site.ru/ctlg/search.php?search=носки и таблица с товарами (носки, майки, брюки и прочее). Как подставить в ссылку наименования товаров (носки, майки, брюки и прочее). Хорошо если это будет работать в многопоточном режиме. Какие действия использовать?
Значит, что-то не так настроили.
Можем настроить под заказ.
https://www.elektro.ru/catalog/vyklyuchateli_modulnye/ загружает одни и те же товары по полученным ссылкам пейджера.
Смотря что и как настроено. В некоторых случаях можно продолжить с места остановки, в некоторых - нет.
Здравствуйте!
подскажите, у Вас в парсере есть решение, допустим во время работы парсера сделать паузу, или при закрытии/открытии продолжить с того места где прервался парсер?
Александр, под Мак версии надстройки нет и не будет.
На маке можно работать под Parallels
Добрый вечер, работал на вин, перешел на мак, можно ли как то докупить и поставить на него настройку. Если нет, планируете ли вообще делать ее под маки или изучать что-то новое?
В браузере смотрите, какие запросы выполняют скрипты, и в парсере выполняете такие же щапросы (аналогично авторизации)
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon
Прикол в том, что все больше и больше сайтов появляются с JS и очень часто стали встречаться допустим скрытые характеристики. Хочется научиться делать самому. Парсер покупал не для того чтобы каждый раз заказывать его настройку. Раньше у вас было видео по пост запросам и что-то вроде получалось, теперь не могу найти его на вашем сайте. Можете сооринтировать?
Здравствуйте
Тут нет какого-то единого способа получения данных. От конкретного сайта зависит, что и как делать.
Можем настроить под заказ.
Добрый день, подскажите где почитать про то как открывать табы на сайтах парсером (совершить действие). В JS вообще не соображаю. Есть страница, часть информации на странице грузиться просто как обычно и я спокойной забираю её, а часть подгружается с помощью JavaScript (есть дополнительные скрытые табы, при нажатии на которые открываются дополнительные характеристики). Подскажите как открыть их парсером!
Здравствуйте, Антон
Да, парсер может всё это собрать, и вывести в любом нужном вам виде.
Можем настроить под заказ.
Добрый день!
Такой вопрос.
Задача собрать цены с сайта поставщика.
Поэтапно дошел до карточки товара, в соответствие с алгоритмом.
Все работает, цены выгружаются в excel. Но в некоторых позициях
внутри карточки товара есть еще разделение товара на цвета, причем,
каждый цвет это как отдельный товар со своим артикулом.
https://carfashion-rus.ru/katalog/nakidki/carfashion-premium/433163--bul...
Функционал парсера рассчитан на работу с таким товаром?
есть функция работы со страницами пейджера, а через что можно
реализовать данный момент (если можно)?
Добрый день, подскажите, не могу понять как обойти ограничение в прокрутке. Вроде бы сделал парсинг, сайт, где ещё есть кнопка показать ещё. Я конечно ещё не понял, как сделать, чтобы автоматом все переменные страницы поставлялись. Но дилемма в другом, ограничение в 199 страниц, после 199 страницы выходит ошибка 500. На сайте просто на прогружается дальше, а в парсинге результат неправильный.
Николай, такой возможности нет в программе.
Вручную можно запустить несколько парсеров параллельно (в нескольких отдельно запущенных Экселях), но эта возможность недокументирована (и через интерфейс программы так не запустить сразу несколько)
Добрый день!
Подскажите, а есть ли такой функционал, чтобы запускать несколько парсеров не по очереди, а одновременно или параллельно? У меня тяжелые сайты доноры, 11 шт., грузятся по 10-20 мин, уходит несколько часов на это.
Александр, надо не маску имени файла задавать, а сформировать массив с «правильными» именами файлов,
и передать этот массив в это поле через переменную.
При загрузке картинок, требуется выводить в каждую папку свой файл. В настойках парсера во вкладке загрузка файлов-имя файлов делаю маску вида {номер_столбца}\{item_index} при этом картинки скачиваются файлами, если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.jpg - то, скачиваются все картнки в формате jpg. Если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.png - то, скачиваются все картнки в формате png. Вопрос: что поставить после {item_index} чтобы скачивались картинки со своим расширением, то ест там есть и jpeg и png,gif
Александр, не могу подсказать. Я не знаю, что такое «элементы массива» в таблице Excel.
Подскажите плз. Имеется таблица, в которой получается допустим 20 элементов массива, внутри каждого массива 3 значения, нужно из каждого массива убрать второе, как это сделать?
Передаю в загрузку файлов массив url картинок, для имени файла выбираю "Формировать имя по маске" и указываю image_{item_index}.jpg
Парсер загружает все картинки, но item_index не увеличивается и всегда=1. И таким образом, из массива остается только последняя картинка, предыдущие затираются.
Невозможно загрузить несколько картинок, используя маску.
Отправить комментарий