Парсинг сайтов

Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.

Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.

Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.

На нашем сайте вы можете:

заказать настройку программы-парсера под интересующие вас сайты
Как заказать парсер сайта (видеоинструкция)
скачать готовые (ранее настроенные) парсеры
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
самостоятельно настроить парсер под свою задачу, изучив справку по программе
Скачать пробную версию программы «Парсер сайтов»
Основная видеоинструкция по настройке парсера интернет-магазина
Справка по программе «Парсер сайтов»
заказать парсер XML файлов, парсер PDF файлов, а также файлов формата Word, HTML и TXT

Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru

Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.

133832 просмотра

Здравствуйте! Нужно с сайта zakupki.gov.ru спарсить данные о закупках по поисковому фильтру и из файлов, прилагаемых к закупке (в основном - DOC, редко - PDF) взять дополнительную информацию. Возможно это сделать?

Игорь (администратор сайта), 8 Фев 2025 - 13:41.#2

Здравствуйте, Константин.
Ссылку можно сохранить в переменную первым же действием в исходных данных, а потом считать из переменной при выводе в столбец.
В новых версиях парсера по умолчанию включена галочка создания нового листа для вывода. Её можно отключить в настройках парсера, - вкладка Вывод на лист, подкладка Настройки листа для вывода.

Константин, 8 Фев 2025 - 09:14.#3

Как вывести на лист текущую ссылку которую обрабатывает парсер если выбран список значений. Сейчас в парсере есть настройка получить текущую ссылку но она не всегда совпадает с тем что изначально было в файле. Так же не понимаю почему последняя версия парсера всегда открывает новый лист при парсинге.

Игорь (администратор сайта), 21 Авг 2024 - 05:44.#4

В общих настройках программы, на вкладке Интерфейс, включите галочку Режим разработчика, — и этот пункт появится.

Jeka, 17 Авг 2024 - 12:57.#5

Раньше как-то можно было открыть настройки парсера в виде отчета в браузере. Сейчас есть это? не могу найти

Игорь (администратор сайта), 11 Июл 2024 - 10:47.#6

В старых версиях программы обновление может не срабатывать.
В новых версиях это исправлено (можно будет обновляться нажатием через окно О ПРОГРАММЕ)

Гость, 10 Июл 2024 - 18:06.#7

НЕ смог автоматически обновиться, пришлось скачивать
ошибка "невозможно скачать файл обновления"

Игорь (администратор сайта), 23 Сен 2023 - 01:10.#8

Версия программу-парсера ни на что не влияет.
Если парсер настроен корректно, и никакие дополнительные надстройки не мешают работе парсера, будут выводиться все данные.
Напишите мне в телеграм, попробую помочь.

Гость, 23 Сен 2023 - 01:05.#9

После обновления, перестал подставлять данные в таблицу. Первые 10 строк заполняет, потом пусто, при этом прогрессбар показывает работу. Делал с разными сайтами. Пробывал удалять парсер, скачивать устанавливать заново, не помогает. Офис 13ый

Игорь (администратор сайта), 25 Мар 2023 - 06:31.#10

Здравствуйте, Александр.
Отправьте мне файл настроек этого парсера на почту, я проверю в чем дело

Александр, 25 Мар 2023 - 01:39.#11

В версии 4.1.2 поломалась авторизация на сайт настроенный в 2017 году и до версии 4.1.0 прекрасно работающий. Откатившись на версию 4.1.0 авторизация снова работает. Версию 4.1.1 не пробовал, с 4.1.0 сразу обновился на 4.1.2

Игорь (администратор сайта), 30 Сен 2022 - 06:57.#12

Алексей, задаёте режим «Брать данные с листа Excel из заданного столбца», и используете действия Добавить текст до или после (добавляете ссылку ДО значения из ячейки) и Загрузить страницу по ссылке

Гость Алексей, 30 Сен 2022 - 02:16.#13

Здравствуйте! Подскажите, пожалуйста, какое действие использовать, чтобы спарсить ряд страниц. Есть ссылка на сайт вида https://www.site.ru/ctlg/search.php?search=носки и таблица с товарами (носки, майки, брюки и прочее). Как подставить в ссылку наименования товаров (носки, майки, брюки и прочее). Хорошо если это будет работать в многопоточном режиме. Какие действия использовать?

Игорь (администратор сайта), 19 Сен 2022 - 20:14.#14

Значит, что-то не так настроили.
Можем настроить под заказ.

jeqa, 19 Сен 2022 - 15:19.#15

https://www.elektro.ru/catalog/vyklyuchateli_modulnye/ загружает одни и те же товары по полученным ссылкам пейджера.

Игорь (администратор сайта), 18 Сен 2022 - 10:40.#16

Смотря что и как настроено. В некоторых случаях можно продолжить с места остановки, в некоторых - нет.

Гость, 16 Сен 2022 - 15:19.#17

Здравствуйте!
подскажите, у Вас в парсере есть решение, допустим во время работы парсера сделать паузу, или при закрытии/открытии продолжить с того места где прервался парсер?

Игорь (администратор сайта), 1 Сен 2022 - 22:59.#18

Александр, под Мак версии надстройки нет и не будет.
На маке можно работать под Parallels

александр, 1 Сен 2022 - 22:33.#19

Добрый вечер, работал на вин, перешел на мак, можно ли как то докупить и поставить на него настройку. Если нет, планируете ли вообще делать ее под маки или изучать что-то новое?

Игорь (администратор сайта), 26 Май 2022 - 17:58.#20

В браузере смотрите, какие запросы выполняют скрипты, и в парсере выполняете такие же щапросы (аналогично авторизации)
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon

Пользователь Парсера ExcelVba, 26 Май 2022 - 17:51.#21

Прикол в том, что все больше и больше сайтов появляются с JS и очень часто стали встречаться допустим скрытые характеристики. Хочется научиться делать самому. Парсер покупал не для того чтобы каждый раз заказывать его настройку. Раньше у вас было видео по пост запросам и что-то вроде получалось, теперь не могу найти его на вашем сайте. Можете сооринтировать?

Игорь (администратор сайта), 26 Май 2022 - 17:46.#22

Здравствуйте
Тут нет какого-то единого способа получения данных. От конкретного сайта зависит, что и как делать.
Можем настроить под заказ.

Пользователь Парсера ExcelVba, 26 Май 2022 - 17:44.#23

Добрый день, подскажите где почитать про то как открывать табы на сайтах парсером (совершить действие). В JS вообще не соображаю. Есть страница, часть информации на странице грузиться просто как обычно и я спокойной забираю её, а часть подгружается с помощью JavaScript (есть дополнительные скрытые табы, при нажатии на которые открываются дополнительные характеристики). Подскажите как открыть их парсером!

Игорь (администратор сайта), 4 Мар 2022 - 21:13.#24

Здравствуйте, Антон
Да, парсер может всё это собрать, и вывести в любом нужном вам виде.
Можем настроить под заказ.

Антон, 4 Мар 2022 - 16:55.#25

Добрый день!

Такой вопрос.
Задача собрать цены с сайта поставщика.
Поэтапно дошел до карточки товара, в соответствие с алгоритмом.
Все работает, цены выгружаются в excel. Но в некоторых позициях
внутри карточки товара есть еще разделение товара на цвета, причем,
каждый цвет это как отдельный товар со своим артикулом.
https://carfashion-rus.ru/katalog/nakidki/carfashion-premium/433163--bul...
Функционал парсера рассчитан на работу с таким товаром?
есть функция работы со страницами пейджера, а через что можно
реализовать данный момент (если можно)?

Гость, 13 Ноя 2021 - 12:57.#26

Добрый день, подскажите, не могу понять как обойти ограничение в прокрутке. Вроде бы сделал парсинг, сайт, где ещё есть кнопка показать ещё. Я конечно ещё не понял, как сделать, чтобы автоматом все переменные страницы поставлялись. Но дилемма в другом, ограничение в 199 страниц, после 199 страницы выходит ошибка 500. На сайте просто на прогружается дальше, а в парсинге результат неправильный.

Игорь (администратор сайта), 18 Июн 2021 - 03:36.#27

Николай, такой возможности нет в программе.
Вручную можно запустить несколько парсеров параллельно (в нескольких отдельно запущенных Экселях), но эта возможность недокументирована (и через интерфейс программы так не запустить сразу несколько)

Николай, 18 Июн 2021 - 01:47.#28

Добрый день!
Подскажите, а есть ли такой функционал, чтобы запускать несколько парсеров не по очереди, а одновременно или параллельно? У меня тяжелые сайты доноры, 11 шт., грузятся по 10-20 мин, уходит несколько часов на это.

Игорь (администратор сайта), 9 Май 2021 - 11:36.#29

Александр, надо не маску имени файла задавать, а сформировать массив с «правильными» именами файлов,
и передать этот массив в это поле через переменную.

Alexandr, 6 Май 2021 - 20:29.#30

При загрузке картинок, требуется выводить в каждую папку свой файл. В настойках парсера во вкладке загрузка файлов-имя файлов делаю маску вида {номер_столбца}\{item_index} при этом картинки скачиваются файлами, если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.jpg - то, скачиваются все картнки в формате jpg. Если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.png - то, скачиваются все картнки в формате png. Вопрос: что поставить после {item_index} чтобы скачивались картинки со своим расширением, то ест там есть и jpeg и png,gif

Парсинг сайтов

Комментарии

Отправить комментарий

Категории парсеров

НАДСТРОЙКИ ДЛЯ EXCEL