Парсинг сайтов

Парсинг — это сбор и обработка контента с сайта или из файлов, с выводом результата в файл (например, в таблицу Excel).
Парсинг сайтов подразумевает перебор веб-страниц, анализ их HTML-кода, преобразование данных к нужному виду, вывод полученных значений, а также загрузку (скачивание) файлов.

Наша команда с 2013 года специализируется на парсинге сайтов, как на наиболее востребованном направлении касательно автоматизации работы с Excel.

Мы создали (и продолжаем развивать) специализированный плагин для Excel — надстройку «Парсер сайтов и файлов», позволяющую легко и гибко автоматизировать процесс парсинга всевозможных сайтов, с выводом результата в таблицы Microsoft Excel.

На нашем сайте вы можете:

 

Если вас интересует мониторинг цен конкурентов на сайтах, — эта задача тоже легко решается парсером.
Подробнее об услуге и ценах на неё, написано на отдельном сайте: price-monitoring.ru

 

Наш парсер очень гибко настраивается под любую задачу, — можно взять любой контент с любого сайта, и вывести результат в любом виде.

 

Комментарии

Александр, надо не маску имени файла задавать, а сформировать массив с «правильными» именами файлов,
и передать этот массив в это поле через переменную.

При загрузке картинок, требуется выводить в каждую папку свой файл. В настойках парсера во вкладке загрузка файлов-имя файлов делаю маску вида {номер_столбца}\{item_index} при этом картинки скачиваются файлами, если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.jpg - то, скачиваются все картнки в формате jpg. Если добавляю в конце формат файла, допустим {номер_столбца}\{item_index}.png - то, скачиваются все картнки в формате png. Вопрос: что поставить после {item_index} чтобы скачивались картинки со своим расширением, то ест там есть и jpeg и png,gif

Александр, не могу подсказать. Я не знаю, что такое «элементы массива» в таблице Excel.

Подскажите плз. Имеется таблица, в которой получается допустим 20 элементов массива, внутри каждого массива 3 значения, нужно из каждого массива убрать второе, как это сделать?

Передаю в загрузку файлов массив url картинок, для имени файла выбираю "Формировать имя по маске" и указываю image_{item_index}.jpg
Парсер загружает все картинки, но item_index не увеличивается и всегда=1. И таким образом, из массива остается только последняя картинка, предыдущие затираются.
Невозможно загрузить несколько картинок, используя маску.

Не знаю, что это за ошибка, ранее не сталкивался.
Скачайте заново надстройку с сайта. Если не поможет, напишите на почту или в скайп, выслав скриншот ошибки.

Ранее все работало хорошо, теперь при попытке запустить Fill Documents выскакивает ошибка и не запускаются надстройки Visual Basic "Class not registered....." Как быть?

Евгений, я же не телепат, чтобы угадать, что как там у вас настроено, и что где там не выводится.
Если была бы проблема в программе, - мне уже сотни людей написали бы об этом.
Если нужно перенастроить парсеры, чтобы решить эту проблему, - высылайте на почту файлы настроек парсеров, и пишите как увидеть проблему (что выводится сейчас, что должно выводиться)

<<Значит, что-то настроили не так.
<<Могу настроить под заказ.

Cделал парсер еще одного сайта, тоже самое, пропускает карточки товара.. (с отключенным антивирусом тоже)
сайты простые вхлам, без наворотов, типа как у Вас в самом первом примере программы.
Может настройки какие или из-за них? я ставил выводить заголовки, увеличить таймаут, и отмечал окно об ошибке.
Потом проверил на старой версии программы парсера (19 год) - всё работает!

Значит, что-то настроили не так.
Могу настроить под заказ.

при переходе на карточку товара (загрузить исходный код страницы) парсер выкидывает на категорию товаров.. Если смотреть настройки парсера по шагам действий, код страницы в результатах обработки показывает, но при сохранении в буфер, вместо кода сохраняет ссылку на категорию.

Например, можете в столбце Артикул использовать это действие (со вторым параметром «да»):
https://excelvba.ru/programmes/Parser/actions/IncreaseCounter

подскажите пожалуйста,КАК сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Можно, но это плохая идея (завтра порядок товаров изменится, и артикулы другие будут)
Лучше формировать артикул из названия или из ссылки на товар.

Парсю сайт, на котором нету артикулов. Можно ли как-нибудь сделать автоподставновку чисел от 1 допустим до 5000 во время парсинга

Здравствуйте, Дмитрий.
Не видя, что как вы там настраиваете, подсказать не могу (много разных способов это сделать, в зависимости от того как настроено остальное)
Можем настроить под заказ.

Здравствуйте. При выводе на лист мне необходимо что бы получаемый массив товаров нумеровался от 1 до последнего. Номера в отдельном столбце. Я хочу это сделать что бы задать имена загружаемым картинкам 1,2,3,4 и так далее, что бы номер картинки соответствовал номеру товара.
Подскажите пожалуйста к каким настройкам обращаться. Благодарю!

Александр, можно формировать массив имен файлов из ссылок (и в загрузках указывать ссылку на переменную, содержащую имена файлов)
Но я бы не заморачивался, — можно все картинки сохранять с расширением jpg (и браузеры, и Windows, не смотрят на расширение файла, и благополучно отобразят картинки разных форматов, даже если у всех них одно и то же расширение jpg)

При загрузке изображений требуется задать название папки, равное столбцу. Соответственно, я создаю маску допустим {3}\{item_index}.jpg. Но что делать если картинки нескольких расширений, а не только jpg, на страницах присутствуют и gif и png

Здравствуйте, Виталий.
Надо сделать доп. парсер, который по очереди запускает все остальные.
Если сами не разберетесь, - напишите на почту, вышлю такой парсер

Добрый день. Настроил несколько парсеров, которые собирают информацию в одну таблицу. Как сделать запуск сразу всех "одной кнопкой"? Спасибо.

Александр, используйте прокси-серверы

А можно ли как-то обойти 403 в вашем парсере? После парсинга 500+ товаров выдало 403 ошибку

Это на 95% зависит от сайта, и объёма страниц.
Время работы парсера примерно равно времени загрузки страниц сайта (на обработку и вывод на лист уходит обычно около 10% времени)

Какая производительность парсера? Сколько страниц пасрсит в секунду?

Здравствуйте, Сергей.
Если с настройкой что-то не получается, - можем настроить под заказ
заказы на парсер принимаются в таком виде
https://excelvba.ru/programmes/Parser/order
(по каждому сайту - отдельный заказ)

Парсер не передает из уровня в подуровень данные

Такой проблемы в программе нет
Иначе бы я об этом давно знал (десятки тысяч различных парсеров работают на тысячах разных компов, — проблема бы неоднократно уже вылезла)

когда я вставляю в эксель массив данных то через строку получаем ячейки с линейкой из знаков равно

Добавьте действие «Объединить (сцепить) элементы массива», указав разделитель {NL}
И получите нормальный текст для копирования

Добрый вечер Игорь.
Сегодня я весь день промучался с парсером.
И у меня ничего толком не получилось.
Сначала у меня не грузились сайты, через стандартное действие загрузить по ссылке.
На что вы мне сказали решения этой пробьемы нет. Я решил грузить сайты через действие Открыть в ИЕ.вроде бы загрузилось. но тут я стокнулся с еще более сложной проблемой которую счиатю можно отнести к коду парсера. Парсер не передает из уровня в подуровень данные. не знаю изза чего это но раньше такого не было в предыдущей версии которой я пользовался пол года назад последний раз .
чтобы более понять это вот пример.
у меня 3 уровня созданных. я делаю тест первого уровня он получает страницу сайта затем жму перейти на следующий уровень он открывает новый уровень но без каких либо действий в нем. я сначала подумал что у меня чтото не так создал действия в этом подуровне жму сохранить итон бац предлагает сохранить новый парсер. не знаю что этоьтакое может где то надотпоставить галочки хз.
затем мне крайне не понавилось что массив представлен потновому в результатах парсинга. каждая строка массива через линейку из знаков равнь. раньше можно было втручном режиме обрабатывать страницы и копировать из результатов массив а теперь я мне этотнеудобно. когда я вставляю в эксель массив данных то через строку получаем ячейки с линейокй из знаков равно. тестил старый парсер который раньше успешно создал мне ьаблицу из инет магаза и опять не работает. что за чертовщина. ничего сегодня не работает.

Благодарю!

Здравствуйте, Стас.
Этим действием воспользуйтесь:
https://excelvba.ru/programmes/Parser/actions/CreateWorksheet
Применяется в исходных данных, на подуровне где категории перебираются (обычно второй подуровень действий)
Если сами не разберётесь - можем настроить под заказ.

Добрый день!
Тестирую и уперся. Может ли программа создавать лист на основании категории сайта, а после активировать его и помещать товар и все данные только данной категории. При переходе к следующей категории, действие по созданию и активации листа повторяется. На каком этапе настройки парсера нужно это сделать? И какими действиями

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  ____           ____    _       _____         
| __ ) __ __ | __ ) | | |___ / __ _
| _ \ \ \/ / | _ \ | | |_ \ / _` |
| |_) | > < | |_) | | |___ ___) | | (_| |
|____/ /_/\_\ |____/ |_____| |____/ \__, |
|___/
Введите код, изображенный в стиле ASCII-арт.