Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2000 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (3300 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Александр, вы всё правильно поняли
первым действием, ставите СОХРАНИТЬ ЗНАЧЕНИЕ В ПЕРЕМЕННУЮ с именем art

потом. когда нашли результаты поиска, если прямо в результате поиска выводится артикул, - то проверяете текст результата поиска, и только потом из него берете ссылку на товар (когда останется один результат поиска, после применения действия ПРОВЕРКА НЕ ВЫПОЛНЕНИЕ УСЛОВИЯ), либо (если искомый артикул можно увидеть только на странице товара) берете первые 10 результатов поиска, получаете ссылки на товары 910 штук), прогружаете из тут же все (без подуровня), и потом та же ПРОВЕРКА НА ВЫПОЛНЕНИЕ УСЛОВИЯ

В действии проверки, условие ставите СОДЕРЖИТ, а параметр - %art%

Здравствуйте! Подскажите решение, пожалуйста:
берем значения из заданного столбца + пара действий
попадаем на результат поиска по артикулу (значению).
результат поиска это ссылки на карточки товаров
нам нужно перейти только в одну (в ту которая содержит артикул)
количество ссылок всегда разное
порядковый номер ссылки тоже всегда разный, сайт предлагает замены, аналоги и т.д.
понимаю что теоретически надо через выполнение условия, но как задать условия правильно?
или иное решение может есть - подскажите пожалуйста как быть

Отличный парсер, используем его для сбора данных от поставщика, (у нас магазин автозапчастей) очень гибкие настройки, прост в управлении, всегда актуальные обновления))

отзывчивые и профессиональные специалисты по настройке и тех поддержке парсера...
Спасибо разработчикам и всем кто развивает это продукт.
Добра вам и процветания!!

Вообще-то, я ни разу не использовал больше 6-7 уровней
Если вам нужно больше 15 уровней, - наверняка, вы перемудрили с настройкой
Уровни эти, в принципе, и не нужны, - они лишь экономят память компа (подразумевается, что на выходе каждого из подуровней - несколько результатов)

Если предположить, что на каждом подуровне - всего 3 результата, - то на вывод будет подано 14 миллионов значений, - это на лист не влезет даже (надеюсь, вы не решили спарсить весь гугл или фейсбук...)

Добрый!!! Подскажите возможно ли как-то увеличить количество вложенных уровней? У программы их 15.

Михаил, тут можно и без подуровней, должно работать
Либо из одного набора действий вызывать другой (по сути, это аналогично подуровням)

Не работает так, я так понимаю, нужны подуровни.
Отдельным парсером все работает.
Т.е. первым делом в исходных данных «Получить названия листов», (массив)
А в подуровне 2 уже «Активировать лист в книге» и «Сохранить таблицу в формате CSV».
Хотел организовать это действиями одного прасера, т.к. в имени сохраняемого CSV есть переменная, получаемая парсером

Здравствуйте, Михаил
Между действиями «Получить названия листов» и «Сохранить таблицу в формате CSV» добавьте действие «Активировать лист в книге»
Ну и убедитесь, что имена файлов CSV будут разными, для разных листов файла

Добрый день, Игорь!
Подскажите, пожалуйста, как настроить сохранение страниц в CSV.
Суть такая: парсер отработал, в итоге получается екселевский файл с 20-30 страничками.
в Parser_Finish делаю Получить названия листов и Сохранить таблицу в формате CSV.
Но т.к. получается массив - сохраняется только последний лист.
Можно как то решить это без запуска другого парсера? Спасибо!

Я не сталкивался с утечкой памяти уже давно
Напишите мне в скайп, отправите мне файл настроек парсера, вызывающий утечку памяти, - я посмотрю, что можно сделать.

Здравствуйте. Есть ли возможность в программе загружать не всю веб страницу, а определенное количество символов, что бы программа не так сильно жрала физическую память? А то бывают сайты, с большим веб кодом, и после длительного парсинга в многопотоке программа со временем просто виснет. Поделитесь пожалуйста информацией, как исключить утечку памяти, я думаю многим будет интересно.

Как запланировать автоматический запуск парсера по времени?

Помогла галочка ПРИ ЗАПУСКЕ, СОЗДАВАТЬ НОВЫЙ ФАЙЛ ЭКСЕЛЬ.
Спасибо за невероятно быстрый отклик.

#РЕШЕНИЕ ЕСЛИ НЕ СОЗДАЕТСЯ ТАБЛИЦА В ПРОЦЕССЕ ПАРСИНГА

Причина проста: что-то не так настроили
Посмотрите видеоинструкцию, и проверьте все настройки.
Например, вы могли не включить галочку ВЫВОД НА ЛИСТ. Или не включить галочку ПРИ ЗАПУСКЕ, СОЗДАВАТЬ НОВЫЙ ФАЙЛ ЭКСЕЛЬ.
Или не настроить вывод в столбцы. Или еще что-нибудь не так сделать.
PS: могу настроить под заказ.

По какой причине вообще не показываться таблица Excel с результатами?
Считывание каждого товара происходит и показывается в прогрессе, при нажатии ранее кнопки Протестировать - результаты выводились.

Иван, если готовы приобрести программу, - пишите мне в скайп, подскажу как сделать

Не получается указать маску html-кода ссылки "Показать еще" для действия "Прокрутить страницу вниз в Internet Explorer" для сайта https://www.goodyearshop.ru/catalog/tires/goodyear.
Перепробовал все варианты - со звездочками, без них, указывал только текстовые символы, полностью строку кода, но количество товаров на странице не увеличивается. Подскажите, как правильно задать маску для этого сайта. Спасибо

Тимур, напишите мне в скайп, — я подскажу, что как работает
Ник в скайпе: ExcelVBA.ru

Пять месяцев назад было обновление: "3.10 + реализована поддержка плагинов (файлов .xla с дополнительными действиями для обработки данных)". Хорошо, что программа развивается и обрастает новым функционалом. Плохо, что по многим функциям нет описания. По данному обновлению
вообще тишина, хотя уже несколько раз просили привести пример работы.

Да, работают регулярные выражения. В том числе и написанные вами.
Скорее всего, вы как-то неправильно их применяли.

Действие Параметр Значение
Проверка на выполнение условия Режим проверки REGEXP
Значение для сравнения ^((8|\+7)[\- ]?)?(\(?\d{3}\)?[\- ]?)?[\d\- ]{7,10}$
Действие при выполнении условия Задать новое значение
Параметр действия ок
Проверять другое значение нет
Другое проверяемое значение
Исходное значение Результат
89122654184
ок

Здравствуйте. В программе работают регулярные выражения? Перепробовал несколько вариантов для валидации номера телефона например /^(\s*)?(\+)?([- _():=+]?\d[- _():=+]?){10,14}(\s*)?$/ потом ^((8|\+7)[\- ]?)?(\(?\d{3}\)?[\- ]?)?[\d\- ]{7,10}$ в результате обработки пусто, регулярки правильные, номера в кодах страниц соответствуют выражениям

Да, можем проконсультировать (при условии приобретения программы)
Напишите мне в скайп. Ник в скайпе: ExcelVBA.ru

Уважаемая администрация, добрый день!
Не могу разобраться как взаимодействовать с выпадающим списком на web странице. Скажите, пожалуйста, вы оказываете персональные консультации (готов оплатить, если не сильно много :))?

по ссылкам, - напишите в скайп, попробую помочь

Сохранил ссылки в одном из столбцов. Когда начинаю загружать данные по ссылкам,
то все они выводятся в один столбец, друг под другом. А нужен вывод с каждой ссылки
в отдельной столбец . Не могу понять как это сделать.

А можно не настроить, а получить информацию как обходить подобную защиту.
Данные я уже вывел с сайта в полу ручном режиме. Заняло много времени.
Какая цена такой информации? (Можно просто готовый парсер) и на какой элемент обратить внимание.

А разницы нет, какое расширение у файла будет, — описанный вами способ сработает.
Да, для локальный файлов, надо применять действие «загрузить содержимое текстового файла»
(хотя, в следующих версиях, сделаю наверное, чтобы и через «Загрузить исходный код страницы» работало. сегодня вот сделал это для действия «открыть страницу в браузере IE» - он теперь и с локальными файлами так же работает, как и с сайтом)

Сохраняйте не в html, а в txt, далее действие "обработка файлов из папки" > "загрузить содержимое текстового файла".

Николай, эту защиту можно обойти
Могу настроить под заказ (платно)

Мешает то что у них там защита антибот. Не знаю как обойти. Вот изобретаю велосипед. Можете подскажите как вы обходите подобную защиту? можете пример скинуть на почту или объяснить.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _____   ____        _  __   __  _      _     
|___ | | _ \ __| | \ \ / / | | __ | |__
/ / | | | | / _` | \ V / | |/ / | '_ \
/ / | |_| | | (_| | | | | < | |_) |
/_/ |____/ \__,_| |_| |_|\_\ |_.__/
Введите код, изображенный в стиле ASCII-арт.