Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Добрый день

Есть код

Print
стандартная комплектация

Нужно его преобразовать таким образом, чтобы вместо span class="case" был тег td. Для этих целей использовал действие - HTML: Замена / изменение тегов, прописал шаблон вида - [=text], но вот незадача, теги внутри данного тега удалились, есть ли возможность в данном действии вывести не текс тега, а его HTML код? Либо подскажите, пожалуйста, коим другим действием можно решить данную задачу, желательно шибко "не размазывая", так сказать просто и со вкусом...

Да, возможно, если не одновременно

Добрый день!

Вопрос: возможно ли записывать результаты нескольких парсеров в один файл эксель?

т.е. парсинг с нескольких сайтов пишется в один эксель лист?

По количеству циклов наборов действий - никаких ограничений я не вводил
Если работает что-то не так, - наверняка, есть ошибка в настройке
Не видя, что и как вы там настраивали, подробнее ответить не могу


Касательно многократного запуска по расписанию, и утечки памяти при этом, - я в курсе проблемы, работаю над её решением.
В следующих версиях проблема будет устранена.

Здравствуйте. В наборе действий Parser_finish стоит запуск парсера по расписанию через каждую секунду, при каждом запуске возрастает нагрузка на процессор, если работает очень долго выскакивает ошибка о недостатке памяти. С чем это может быть связано и как этого избежать?

При том, что если проверять результаты в ручную, нажимая "Тестировать", то циклы повторяются больше 19 раз.

Игорь, добрый день! Скажите почему программа в цикле выполняет только 19 циклов наборов действий и останавливается без причин для этого?

Здравствуйте, Андрей.
Нет, не будет. Работает только в эксель под windows

Здравствуйте, а будет ли работать на OpenOffice или Liberti Office?

Да, программа это всё может
(зациклить поиск - не проблема)
Описывать алгоритм не готов, - долго, да и от конкретного сайта зависит способ реализации.
(вкратце - набор действий для поиска ссылок, проверка на выполнение условия, из того же набора действий вызов его самого)
Можем настроить под заказ

Игорь, добрый день! Спасибо за программу! Столкнулся с вопросом по работе с вашей программой, на сайте нужно собрать все нужные мне ссылки и сохранить их в Excel, только вопрос в том, что на каждой странице показывается только по 2 ссылки, у этих ссылок нельзя подобрать адрес, они все разные, например в исходной странице, с которой начинает работать парсер есть ссылка 1 и 2, чтобы увидеть ссылку 3 и 4, нужно перейти на ссылку 2, чтобы увидеть ссылку 6, нужно перейти на ссылку 4 и т.д., всего ссылок 3000 примерно, причем каждую ссылку нужно вывести в таблицу Excel. Подскажите умеет ли программа замыкать в цикл работу до того пока не кончатся ссылки и одновременно сохранять каждую ссылку в Excel? Какой алгоритм действий и какими инструментами пользоваться? Это конечно не критично, но интересно как такое реализовывается в вашей программе.

или форма обратной связи на то и нужна, чтобы никак нельзя было достать email

именно так всё и есть
не достанете вы никак оттуда email

Здравствуйте, возможно ли получить email пользователя на сайте, с которым я могу связатья путем формы обратной связи? В html я ничего не нашел, запросы просмотрел, которые отправляются при отправке сообщения. Может можно какие-то запросы отправлять чтобы увидеть mail? или форма обратной связи на то и нужна, чтобы никак нельзя было достать mail (причем Mail не сайта нужен, а конкретного зарегистрированного пользователя. Вот ссылка на форму обратной связи с конкретным пользователем.
https://www.world-architects.com/en/schneider-architekten-st-georgen/con...

Андрей, вы не приобретали плагины с доп функционалом, - потому, скачать пока нечего.
Позже будут опубликованы описания плагинов (и платных, и бесплатных)
Пока же я сделал только один платный плагин, - для работы парсера с FTP сервером, и извлечения файлов из архивов.

3.1.10 + реализовано автоматическое скачивание приобретенных плагинов при активации программы.

Где можно посмотреть, скачать сами плагины? Программа приобретена.

Добрый день, характеристики товара отображается вот так [url=https://imgbb.com/][img]https://image.ibb.co/mTVRbw/Image_019.png[/img][/url] как сделать что бы значения были рядом?

Понял, спасибо, в поле "если найдено" я ставлю -3 (после чего парсер не выполняет следующие действия, а берет из вышестоящего уровня следующий элемент массива и его опять начинает проверять в действии "поиск значения в столбце"), а что нужно поставить в поле "если НЕ найдено ", чтобы с данными начало работать следующее действие?

Для такого количества вариантов, используйте третий способ (таблицу замен)

но чтобы теперь пропускать уже спаршенные страницы

это делается совершенно иначе
поиск ссылки на страницу в заданном столбце
(действие есть такое, - поиск значения в столбце)
если ссылка найдена на листе - страницу не обрабатываем (останов с параметром -3, без вывода на лист)

Я делаю по 2му варианту. У меня вопрос - есть ли ограничения либо на кол-во символов, либо на кол-во условий (те что через вертикальную черту прописывается). К примеру мне надо чтобы этих вариантов через черту было 8000. Это возможно? или нужно разбить на несколько действий подряд (опять же вопрос - по сколько условий на действие нужно оставлять). Вообще у меня задача сейчас такая. Есть таблица 8000 строк - во время парсинга были пропуски из-за незагруженных страниц - я хочу опять пройти по сайту парсером, но чтобы теперь пропускать уже спаршенные страницы. Если есть более логичные способы буду рад если напишите.

Есть несколько вариантов решения, например:
1) действие "проверка на выполнение условия" - несколько действий подряд
2) действие "проверка на соответствие маске" - несколько условий подряд через вертикальную черту
3) действие "применить таблицу замен" - и список замен сделать, через меню Дополнительно - Таблицы замены..

Здравствуйте, как в "проверка на выполнение условия" проверить массив данных, из которого нужно удалить несколько элементов, для каждого из которых "значение для сравнения" разное. Другими словами мне нужно просто написать в поле "значение для сравнения" несколько значений через "или". Возможно ли это?

Здравствуйте. Вопрос - к примеру на сайте есть Ссылка "Архитектура" которая ведет на страницу сайта site.com/architecture. Как мне при парсинге вставить значение в ячейку также как на сайте, чтобы в ячейке было написано "Архитектура" с гиперссылкой на site.com/architecture. А у меня получается либо текст с сайта собирать либо текст ссылки вида site.com/architecture

Насколько часто - не помню, давно делал. Но не очень часто.
После покупки программы, это сообщение исчезнет.

Как часто при работе парсера в пробном периоде выходит окно - "вы используете пробную версию парсера?"

Посмотрите видеоинструкцию по настройке авторизации, - и поймете, что не так сделали
http://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon

Здравствуйте. Как быть, если данные, которые мне нужно спарсить доступны только для залогиненных пользователей. Я запустил internet explorer, зашел на нужный сайт и авторизовался на нем. Но это не помогло. Парсер бегает по сайту как не зарегистрированный пользователь

Денис, это делается в 3 действия:

Исходное значение
Текст (длиной 16 символов)
Действие Параметр Значение Результат
Форматирование числа / даты Формат 0.000000 Текст (длиной 12 символов)
Произведение чисел Множитель 86400 Число (длиной 10 символов)
Количество цифр после запятой 0
Сумма чисел Сколько прибавить или вычесть -2209161600 Число (длиной 10 символов)
Количество цифр после запятой 0

Добрый день!

Спасибо за парсер! Вопрос, как можно, в ячейке с датой вида "20.12.2017 20:48" перевести ее в unix time stamp формат вида "1516303320"?

Здравствуйте. Подскажите а может ли программа по окончанию работы парсера выслать не файл excel а текстовое сообщение на почту. Через почтовую программу.