Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция по настройке парсера сайтов для формирования прайса с интернета-магазина:

 

Дополнительная видеоинструкция: загрузка страниц и авторизация на сайте

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 1500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (2500 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Комментарии

Подскажите, в каком разделе справке можно почитать о автозаполнении форм на сайте из excel?

Пётр, да, парсер легко справляется и с этой задачей.

Добрый день!
А если нужно настроить автозаполнение форм на сайте из столбцов в excel этот макрос может быть полезен?

Здравствуйте, Николай.
Такой возможности нет

Добрый день, Игорь

Подскажите пожалуйста, возможно ли парсеру указать, какое количество строк кода загружать и кешировать? Т.е. можно ли загрузить первые 100 строк кода страницы, а не весь код?

Роман, по этому сайту примеров нет
Если готовы оплатить программу (2500) и настройку (около 1000 руб) - пишите в скайп, настрою

Есть необходимость пропарсить сайт http://moscow-city.online/company/ получить список организаций с их данными
может есть примеры подобные.

Если готовы оплатить программу (2500) + доплатить 600 руб за настройку авторизации, - пишите мне в скайп, попробую настроить

Кеш отключен. Сайт http://b2b.pwrs.ru

Для разных капч - разный алгоритм
вы не написали ссылку на сайт — потому, посмотреть я не могу — соответственно, подсказать тоже не получится
PS: возможно, кеширование забыли отключить в настройках на вкладке Дополнительно

Добрый день, не удается авторизоваться при работе через парсер.
На нужном сайте стоит капча на авторизацию, делаю так:
-грузим страницу
-диалог. окно ввода капчи
-сохраняем результат в переменную
-авторизуемся, подставляя введенные данные капчи
Диалоговое окно ввода капчи всегда показывает одну и ту же картинку.
Ссылка на капчу выглядит так http://****.ru/Captcha
Из браузера всегда разные картинки, из парсера - одна и та же.
Что то не так в моих действиях?

Здравствуйте, Антон
1) что-то не так настроили.
Там немного исправить настройки, и всё заработает.
Если готовы оплатить программу, - напишите мне в скайп, подскажу, что как сделать
2) раньше работал, но сейчас стал проверять, - почему-то снова не работает
Исправлю в следующих версиях программы
(пока можно заменить на английские, - тогда точно заработает)

Добрый день! Пытаюсь настроить парсер под свою задачу- есть XML файл примерно такого вида:

<СписокЭлементов>
<Объект>
<ТипОбъекта>Панель<ТипОбъекта>
<Наименование>Фасад<Наименование>
<Длина>184.5<Длина>
.....
(удалил здесь / из закрывающего тега, чтобы отображалось корректно)
Необходимо для некоторых тегов создавать столбцы и выводить туда массив значений по 1 значению в каждую строку.

1) С помощью запроса Xpath получилось вывести нужные данные, но парсер выводит весь массив (значения через разделитель) в одну ячейку. Как вывести каждый элемент массива в отдельную строку?
2) Работает ли поиск HTML тегов, если теги прописаны кириллицей? У меня не получилось, но как только тег пишется латиницей, то все работает нормально. Можно ли преобразовать названия тегов в латиницу, при этом значения между ними не менять?

Спасибо.

Здравствуйте, Юрий. Спасибо за отзыв!
Насчет форума - были такие мысли, но пока я плохо представляю, как это все реализовать
Возможно, в будущем что-то подобное реализую

Уважаемые разработчики!

Большое спасибо за качественный продукт и адекватные цены за его настройку, т.к. некоторые моменты требуют детального изучения, если что-то хочешь сделать самостоятельно. Очень грамотно подготовлены видеоинструкции.

В качестве пожелания:
Было бы очень удобно работать с ошибками/донастройками в рамках имеющегося личного кабинета. В неё можно было бы завести заказ и формате форума или обмена сообщениями с вложениями решать возникшие проблемы. Большая просьба рассмотреть такую возможность.

Удачи вам в развитии вашего продукта!

Алексей, на некоторых компах есть проблемы со скачиванием файлов по протоколу HTTPS средствами Windows (что-то в политиках безопасности не так)
В настройках загрузки, на 4-й вкладке «Авторизация», поставьте галочку «Требуется авторизация при скачивании»
Тогда загрузка файла будет выполняться другим способом, — и, скорее всего, всё заработает (если правильно формируется ссылка на скачивание и путь к сохраняемому файлу)

Доброго времени суток!
Спасибо огромное за отличную программу!
Всё получилось самостоятельно настроить, но никак не могу разобраться с загрузкой картинок :(
1) В настройках на вкладке основная информация галочка поставлена на "Выполнять загрузку файлов"
2) все остальные настройки (как в видео инструкции) выполнены по аналогии с использованием переменной imageURL
3) В результате получаем
Ошибка скачивания файла (попыток: 2)
Не удалось скачать файл по ссылке: https://t*.ua/image/cache/data/1/2018/032018/22/golf%205-600x600.jpg
Путь к создаваемому файлу: G:\*\*\Downloads\t*.ua\golf 5-600x600.jpg
Могли бы вы подсказать в чем может быть проблема?
Заранее благодарен!

Здравствуйте
Одним действием тут не обойтись, нужен вызов набора действий, в котором будет 6 действий.
Если готовы приобрести программу, напишите мне в Скайп, подскажу, что как сделать

Здравствуйте. Подскажите пожалуйста!!! Есть массив характеристик товара при выводе на лист.

литой рычаг
класс расхода воды Z
аэратор s-pointer eco Caché M 24 x 1
ограничение расхода воды до 8,0 л/мин
керамический картридж с ограничителем горячей воды
донный клапан G 1 1/4
гибкая подводка G 3/8
класс шума I

Как сделать так что б первая буква была заглавной? А остальные все маленькие. И нужно только что б только первая буква менялась.

Какой порядок действий должен быть?

Посмотрите справку по действию ReplaceTags

Искомые теги: a
Тип замены: ReplaceOuterHTML
Шаблон замены: [=text]

Работает, спасибо! А как сделать чтобы при удалении тега а остался текст гиперссылки

Действие Поиск тегов, где первый параметр - img, а четвертый параметр - DeleteTags, удалит из html все картинки
Аналогично с гиперссылками, только там тег a

Подскажите пожалуйста, как удалить все теги гиперссылок и изображений из текста, оставив остальные и сохранив текущее форматирование?

Что такое сайт ЕИС - zakupki.gov.ru? если да, то можно с определенными ограничениями. Звоните по skype: antonmashkin, расскажу подробности.

с сайта ЕИС закупки может парсить?

Функционал парсера мало отличается от функционала вируса.
Так что это нормально.
Добавьте в исключения антивируса, и пользуйтесь

У меня вирус какой то обнаружил в фале. Поместился в карантин.

Здравствуйте.
Действие есть такое в парсере, - Количество элементов массива

Добрый день!

Подскажите, пожалуйста, как подсчитать кол-во элементов в массиве и вывести это число в ячейку?

Александр, вы всё правильно поняли
первым действием, ставите СОХРАНИТЬ ЗНАЧЕНИЕ В ПЕРЕМЕННУЮ с именем art

потом. когда нашли результаты поиска, если прямо в результате поиска выводится артикул, - то проверяете текст результата поиска, и только потом из него берете ссылку на товар (когда останется один результат поиска, после применения действия ПРОВЕРКА НЕ ВЫПОЛНЕНИЕ УСЛОВИЯ), либо (если искомый артикул можно увидеть только на странице товара) берете первые 10 результатов поиска, получаете ссылки на товары 910 штук), прогружаете из тут же все (без подуровня), и потом та же ПРОВЕРКА НА ВЫПОЛНЕНИЕ УСЛОВИЯ

В действии проверки, условие ставите СОДЕРЖИТ, а параметр - %art%

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
         __   __  _   _  __     __   ___    _____ 
__ __ \ \ / / | \ | | \ \ / / / _ \ | ___|
\ \ / / \ V / | \| | \ \ / / | (_) | | |_
\ V / | | | |\ | \ V / \__, | | _|
\_/ |_| |_| \_| \_/ /_/ |_|
Введите код, изображенный в стиле ASCII-арт.