Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Здравствуйте, Вадим

При изменении значений в выпадающих списках на этом сайте выполняются POST запросы
Например, при выборе в первом выпадающем списке значения «автобус» выполняется POST запрос на адрес http://depo.vn.ua/system/ajax с параметрами:

field_transporttype: 2 (номер выбранного значения в списке, начиная с 0. Здесь 2 - это автобус)
_triggering_element_name: field_transporttype (название выпадающего списка)
form_id: rozklad_dependent_dropdown

(там еще куча параметров, но они не меняются)

Посмотрев вторую видеоинструкцию (по настройке POST запросов), можете попробовать настроить
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon
За выполнение POST запроса отвечает это действие:
https://excelvba.ru/programmes/Parser/actions/WinHTTP_POST

Для данного сайта настройка не очень проста, так что имеет смысл заказать настройку (разбираться долго будете)

справка к программе довольно слабо расписана, это нарочно сделано?

слишком много разных сайтов,
под все случаи инструкции не напишешь

может дадите свои контакты

контакты указаны на сайте: https://excelvba.ru/contacts

Игорь, может дадите свои контакты - хотел бы обсудить сотрудничество (в частности рефералку)

Игорь, спасибо за ответ. а могли бы более подробно рассказать? хотя бы в двух словах. это в сторону расшифровки json смотреть? справка к программе довольно слабо расписана, это нарочно сделано? хотя сама прога огонь

Щёлкать по выпадающему меню в ИЕ особого смысла нет (зачем?)
Всё можно настроить без использования браузера

Добрый день! Подскажите, пожалуйста, как щелкать по элементам дроп-меню? например здесь http://depo.vn.ua/route
Справка в этом плане очень скудная - я нахожу элемент в открытом ИЕ, щелкаю - но ничего не происходит. Уже все элементы в div с дроп меню перебрал, использовал outer html. Также, не хватает справочных данных про генерируемые события в действии "найти элемент в ИЕ". Возможно, нужно в этом направлении смотреть для моей задачи?

Здравствуйте
Да, возможно
В справке о программе об этом написано

Возможно ли сделать атоматический ввод капчи парсером? мне нужно что бы с сайта ИФНС вытягивал номера ИНН

Здравствуйте, Евгений
Такой возможности в программе не предусмотрено

Добрый день!
Есть возможность проверки запуска парсера на компьютере. Например по id "железа". Хочу передать файл со встроенными настройками и нужно что-бы он работал только на определенном компьютере.

User agent - это лишь один из заголовков запроса
Его вы можете задать какой угодно:
https://excelvba.ru/programmes/Parser/actions/HTTP_headers

Прокси можно прописать пока только один

Планируется ли добавление в программу функцию подмены юзер агентов и прокси серверов и как скоро? Мне кажется, что это неотъемлемая функция, это ведь парсер.

Добрый день!
Подскажите пожалуйста, возможно ли спарсить диапазон ссылок такого типа https://mysyite.com/1-100000
Где 1-100000 - диапазон ссылок. Если да, то какие настройки нужно поставить?

Видимо, у вас кеширование включено (его надо отключить, на вкладке Дополнительно)
Команда "Открыть веб-страницу в IE" у вас берет результат из кеша (не запуская IE), а команда "Прокрутить страницу вниз в IE" пытается подключиться к запущенному IE, и, не видя его, выдаёт пустой результат.

Здравствуйте, у меня такая проблема. Команда "Открыть веб-страницу в IE" работает и выдает html код. Но после этого команда "Прокрутить страницу вниз в IE" выдает пустое значение. Не знаете в чем проблема?

Будет работать в LibreOffice?

Да, сделать можно.
Напишите мне в скайп, обсудим

Добрый день, подскажите пожалуйста можете ли помочь? У меня поставщик присылает Excel файл - прайс с фото , мне нужно его загрузить но чтобы вместо картинок были ссылки с разрешением jpg
можно ли это сделать?

Здравствуйте
Да, можно. Настраивается очень просто
В исходных данных ставите режим «Брать данные из заданного столбца», и прописываете одно действие: Загрузить исходный код веб-страницы.
А в настройках вывода на лист (действия по выводу в столбцы) прописываете поиск тегов

Добрый день!

Скажите, пожалуйста, возможно ли настроить парсинг с помощью Вашего ПО таким образом, чтобы он проходил по всем URL ссылкам сайтов из определенного столбца и уже выводил данные по тегам в другие столбцы?

В вашем видео указано как забирать данные тегов из одной ссылки сайта. А вот если поместить в столбец, к примеру, 20 ссылок на конечный товар, можно настроить, чтобы парсер забирал данные по тегам из каждый ссылки и выводил на лист?

Спасибо!

Виталий, я не готов описывать десятки возможных вариантов
Все сайты разные, в каждом случае настраивается под конкретный сайт.
Где-то проще с IE, где-то можно и без IE обойтись.
Могу настроить под заказ.

добрый день, Игорь. Следующий вопрос интересует: Если на сайте открываются фотографии с использзованием Javascript в новом окне, то необходимо использовать "прогрузить страницу через интернет Exployer"? Судя по вашему видео №2 GoogleChrom вообще не поддерживает работу со скриптами.

спасибо за терпение! Я свяжусь с вами в скайпе в ближайшее время

download master тоже справляется с задачей выгрузки большого количества ссылок, но у вашей программы ряд преимуществ! скорость в разы выше и возможность присвоения имени, вот как раз таки присвоение имени и не выходит как хотелось бы... почему именно вопросы пишу, потому что все сделано по видео мануалу, за которое тоже большое спасибо! пробовал различные варианты, и в выборе исходных данных пришлось немного колдовать, так как все сайты разные.
Посмотрите программу, может в ней что то произошло... Вы же ее постоянно дорабатываете, что то могло и вылететь. Может быть такое что она не считывает в присвоении названия из столбца буквы, а видит только цифры?

Виталий, короче, из вашего описания мало что понятно,
но могу настроить под заказ.
Настроить просто, а расписывать все варианты — долго, потому, не готов угадывать, что там у вас не получается, и писать инструкции под ваш случай.
Если готовы оплатить - пишите в скайп или на почту, сегодня же всё сделаем.

сложно сформулировать исчерпывающе проблему.
То что нужно взять переменную из столбца при уже имеющихся ссылках, я конечно разобрался. Но спасибо за телепатию)
Упорядоченная выгрузка изображений получилась только в случае создания дополнительного столбца в Exel с числами по порядку.
Так же получился вариант с созданием подпапок типа {1}\{2}\{9}, но под 9 столбцом происходит опять таки чтение цифр по порядку.
Когда выбираю столбец с кодом товара, то просто напросто открывается по завершению пустая папка с изображениями... Как ни крутил не получилось ни с кодом товара, ни с названием товара, ни с чем...
Если выбирать автоматически из URL, то в результате все изображения разбросаны и когда их 1000 найти нужное не реалистично получается)

Виталий, имея КАКОЙ список в таблице Excel?
Я ж не телепат...
Если в Excel есть список из прямых ссылок на скачиваемые картинки, и нужно отдельный парсер настроить,
то в нём вообще не нужно будет ни одного действия настраивать, - только указать номер столбца со ссылками, включить галочку «Выполнять загрузку файлов», и добавить загрузку

спасибо за ответ, Игорь. На счет покупки программы я сейчас думаю, сравниваю различные продукты, с точки зрения гибкости настроек ваш продукт конечно очень хорош.
Как вы и сами писали на своем сайте, лучше сначала разобраться с программой перед ее покупкой!
Подскажите, где можно найти информацию или вы могли бы выложить ее в инструкции, каким образом можно загрузить изображения, имея список в книге EXEL. То есть считывая информацию, например из одного столбца.

Здравствуйте, Виталий
1. По загрузке картинок, — проблему не понял из вашего описания.
Если готовы оплатить программу (2500 руб) + помощь с настройкой загрузки картинок (500 руб) — помогу настроить скачивание фото
2. По импорту данных: если на сайте импорт не реализован, то всё в разы сложнее (по одному товару вбивать через форму)
Тут вряд ли вы сами разберётесь, тем более если ее и картинки надо таким способом подгружать.
Совет: найти способ импортировать данные из таблицы Excel, на этом сервисе (WIX), или на другом каком-либо.
Без импорта данных, намучаетесь с автоматической загрузкой данных.

Добрый день, Игорь.
Во-первых, хотелось бы поблагодарить за огромный и очень интересный труд. Если возникают трудности с тем, чтобы разобраться с вашей программой, несмотря на то, что есть подробный видео разбор по настройке данного парсера, страшно подумать на сколько реально это было выносить и доработать!!!
Я с компьютером на Вы, далеко не самый опытный пользователь, но по видео все же удалось настроить парсер. При выгрузке данных возникла уже выше написанная проблема с выгрузкой изображений. Если выгружать с галочкой "по маске" работает единственный вариант %imgURL%, но такой вариант сбивает порядок в изображениях и дальнейшая сортировка невозможна. А если настраивать по видео инструкции, то папка с изображениями, без каких либо ошибок, открывается пустой... хотелось бы разобраться с вашей программой, так как еще много информации необходимо выгрузить.
Могу отправить вам свою настройку чтобы было проще разобраться с моим вопросом.
Так же интересует вопрос по дальнейшему использованию данных. Мой магазин на базе конструктора WIX стоит, и там пока что не реализован импорт данных, хоть и в разработке. Реально ли самому разобраться с автозаполненеием полей товара, или какова ориентировочная стоимость данной работы.