Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Виталий, имея КАКОЙ список в таблице Excel?
Я ж не телепат...
Если в Excel есть список из прямых ссылок на скачиваемые картинки, и нужно отдельный парсер настроить,
то в нём вообще не нужно будет ни одного действия настраивать, - только указать номер столбца со ссылками, включить галочку «Выполнять загрузку файлов», и добавить загрузку

спасибо за ответ, Игорь. На счет покупки программы я сейчас думаю, сравниваю различные продукты, с точки зрения гибкости настроек ваш продукт конечно очень хорош.
Как вы и сами писали на своем сайте, лучше сначала разобраться с программой перед ее покупкой!
Подскажите, где можно найти информацию или вы могли бы выложить ее в инструкции, каким образом можно загрузить изображения, имея список в книге EXEL. То есть считывая информацию, например из одного столбца.

Здравствуйте, Виталий
1. По загрузке картинок, — проблему не понял из вашего описания.
Если готовы оплатить программу (2500 руб) + помощь с настройкой загрузки картинок (500 руб) — помогу настроить скачивание фото
2. По импорту данных: если на сайте импорт не реализован, то всё в разы сложнее (по одному товару вбивать через форму)
Тут вряд ли вы сами разберётесь, тем более если ее и картинки надо таким способом подгружать.
Совет: найти способ импортировать данные из таблицы Excel, на этом сервисе (WIX), или на другом каком-либо.
Без импорта данных, намучаетесь с автоматической загрузкой данных.

Добрый день, Игорь.
Во-первых, хотелось бы поблагодарить за огромный и очень интересный труд. Если возникают трудности с тем, чтобы разобраться с вашей программой, несмотря на то, что есть подробный видео разбор по настройке данного парсера, страшно подумать на сколько реально это было выносить и доработать!!!
Я с компьютером на Вы, далеко не самый опытный пользователь, но по видео все же удалось настроить парсер. При выгрузке данных возникла уже выше написанная проблема с выгрузкой изображений. Если выгружать с галочкой "по маске" работает единственный вариант %imgURL%, но такой вариант сбивает порядок в изображениях и дальнейшая сортировка невозможна. А если настраивать по видео инструкции, то папка с изображениями, без каких либо ошибок, открывается пустой... хотелось бы разобраться с вашей программой, так как еще много информации необходимо выгрузить.
Могу отправить вам свою настройку чтобы было проще разобраться с моим вопросом.
Так же интересует вопрос по дальнейшему использованию данных. Мой магазин на базе конструктора WIX стоит, и там пока что не реализован импорт данных, хоть и в разработке. Реально ли самому разобраться с автозаполненеием полей товара, или какова ориентировочная стоимость данной работы.

Здравствуйте, Анна.
Такую аналитику проще провести вручную.
Поручить машинам эту работу тоже можно, но лет через 10-15, когда изобретут искусственный интеллект.
Пока даже Гугл, с бюджетом в миллиарды долларов, не может реализовать такое (чтобы ввели название или артикул, и получили на выходе упорядоченную таблицу, где что продаётся)

Добрый день!
А если наше оборудование не очень часто встречается? Например, узкая специфика лабораторных анализов. Есть возможность настроить парсер не под список сайтов и Яндекс.Маркет, а например, сначала на поиск по определенным маскам, после чего уже на анализ данных найденных сайтов с упорядочиванием в таблицу? Или хотя бы аналогично автоматизировать создание этого "списка сайтов"?
Задача оценить разброс цен на наше оборудование, из найденного по артикулу или наименованию. А ручной поиск сайтов-конкурентов по этим данным тоже тот еще труд, вот бы поручить его машинам... С удовольствием бы оплатила такое решение, если оно будет хорошо работать.

Форума нет, потому что пока нет людей, желающих именно ОБМЕНИВАТЬСЯ проектами и идеями, а не просто задавать там вопросы (у меня нет возможности бесплатно отвечать на множество вопросов по настройке под разные сайты, а оставлять вопросы без ответов тоже не хочется)

Есть вопрос.Почему на сайте нет форума где люди могли бы обмениваться проектами и идеями по решению различных задач?

Да, всё это реально сделать

Привет ! есть задача на странице есть два числа в двух разных столбцах
на одном допустим стоит 2 на другом 15
возможно ли персеру задать условия чтобы он проверял сказжем раз в минуту эти числа
и если они увеличелись на определенные значиния к примеру первое столо 5 а второе 24
или как только первое столо больше 5 а другое больше 20 то он отправляет данные в телеграм ?
Такое реально сдлеать вашим парсером ?

Да, можно и из ВК собирать
Вот пример: https://excelvba.ru/programmes/Parser/samples/parser_vk.com

Добрый день! У меня в ВК марафон похудения, в связи с этим вопрос: каждый день люди загружают фото и комменты в свои персональные альбомы. Можно ли Вашим парсером собирать эти данные в таблицу?

Здравствуйте, Роман.
Хорошие вопросы)

1) на разработку ушло больше 4 лет, если судить по истории версий программы
Конечно, не всё это время потрачено на парсер, - попутно много другого делал
Если занимался бы только парсером, потребовалось бы примерно год непрерывной работы
(там не столько код писать надо, это не сложно, сколько придумывать, что как вообще реализовать)
А самое сложное и трудоемкое — не движок сделать, а добиться того, чтобы на всех сайтах это работало.
Если бы меня устроил результат, чтобы работало с 90% сайтов, - то времени потребовалось бы в 3 раза меньше.

2) смотря что считать самой первой версией.
Программа разрабатывалась постепенно, в самой первой версии было примерно 5% от нынешнего функционала, потому, сравнение не будет корректным.
Полноценная версия была готова где-то через год после начала разработки (больше 50% нынешнего функционала), летом 2014 года.

3) опыт работы был большой, без него ничего бы не получилось
Несколько универсальных программ к тому времени уже были написаны, и продавались (начал делать коммерческие решения в 2012 году)
Был опыт написания сложных программ по 10 тыс строк кода и больше (а в парсере сейчас 23 тыс. строк кода)
Опыт программирования (не изучения, а именно опыт разработки) к началу создания парсера составлял около 5 лет.
Программирую я только на VBA, другие языки не изучал (не было необходимости)

4) много заказов на макросы было по этой теме, начиная с 2010 года
Поначалу, я всем говорил, что это невозможно, создать такую программу в Excel
Года два так всем говорил (даже тут в комментах за 2012 год где-то такое было), а потом подумал, - а почему бы и нет.
Для прайсов я же решение универсальное сделал, почему бы не попробовать для сайтов подобное соорудить.
Поразмышлял несколько месяцев, как это вообще должно всё выглядеть (чтобы быть универсальным), ну и начал делать (тем более, спрос был, и продавать программу начал с самых первых версий, постепенно добавляя функционал под каждый новый заказ)
Тут всё зависит от количества заказов, - не будь их, я ничего бы не смог сделать (потому что и незачем, и тестировать надо на реальных задачах).
А заказов на парсер всегда много было (тем более сейчас, когда программа умеет столько всего, что я сам уже всё не помню.
Почему не что-то другое? Хм.. Так у меня на сайте, вроде как, и много чего другого представлено.
Что пользуется спросом у заказчиков, — то и делаю.

Игорь, несколько личный вопрос. Т.к. сам немного программирую макросы в Excel, очень впечатлен огромной работой проделанной вами для разработки этой системы парсинга и выражаю свое уважение.
1) Сколько времени у вас заняло сделать такую разработку в той ее версии какая она есть сейчас?
2) А сколько времени ушло на разработку самой первой версии данной надстройки парсера, в который был заложен основной базовый функционал (то есть, не учитывая "дошлифовку" и последующие обновления, а именно базовый функционал)?
3) С каким, что называется, "бэкграундом" образования и опыта работы вы брались за работу? Какой стаж программирования у вас был до этого и на каком языке программировали?
4) И как вы пришли к идее сделать парсер? Почему именно данное решение, а не что-то другое?

ответил на почту

Здравствуйте, Игорь
Да, можно
Цена только после ознакомления с заказом.
Высылайте подробности (что откуда брать) и пример результата на почту, тогда отвечу по цене

Можно ли с сайта собрать все почтовые адреса ? ( пример: на сайте указаны списком адреса организаций, вот их и собрать в таблицу). Или как вариант сколько будет стоит эта работа? С уважением Игорь

По этому функционалу, в справке пока ничего нет
Есть 2 варианта решения задачи:
1) используя Internet explorer, заполнять поля в браузере
2) выполнять POST запросы, имитируя действия браузера

Могу настроить под заказ.

Подскажите, в каком разделе справке можно почитать о автозаполнении форм на сайте из excel?

Пётр, да, парсер легко справляется и с этой задачей.

Добрый день!
А если нужно настроить автозаполнение форм на сайте из столбцов в excel этот макрос может быть полезен?

Здравствуйте, Николай.
Такой возможности нет

Добрый день, Игорь

Подскажите пожалуйста, возможно ли парсеру указать, какое количество строк кода загружать и кешировать? Т.е. можно ли загрузить первые 100 строк кода страницы, а не весь код?

Роман, по этому сайту примеров нет
Если готовы оплатить программу (2500) и настройку (около 1000 руб) - пишите в скайп, настрою

Есть необходимость пропарсить сайт http://moscow-city.online/company/ получить список организаций с их данными
может есть примеры подобные.

Если готовы оплатить программу (2500) + доплатить 600 руб за настройку авторизации, - пишите мне в скайп, попробую настроить

Кеш отключен. Сайт http://b2b.pwrs.ru

Для разных капч - разный алгоритм
вы не написали ссылку на сайт — потому, посмотреть я не могу — соответственно, подсказать тоже не получится
PS: возможно, кеширование забыли отключить в настройках на вкладке Дополнительно

Добрый день, не удается авторизоваться при работе через парсер.
На нужном сайте стоит капча на авторизацию, делаю так:
-грузим страницу
-диалог. окно ввода капчи
-сохраняем результат в переменную
-авторизуемся, подставляя введенные данные капчи
Диалоговое окно ввода капчи всегда показывает одну и ту же картинку.
Ссылка на капчу выглядит так http://****.ru/Captcha
Из браузера всегда разные картинки, из парсера - одна и та же.
Что то не так в моих действиях?

Здравствуйте, Антон
1) что-то не так настроили.
Там немного исправить настройки, и всё заработает.
Если готовы оплатить программу, - напишите мне в скайп, подскажу, что как сделать
2) раньше работал, но сейчас стал проверять, - почему-то снова не работает
Исправлю в следующих версиях программы
(пока можно заменить на английские, - тогда точно заработает)