mail mail
Нужен макрос для Excel?
Сделайте заказ прямо сейчас!
Ищете готовое решение?
Выбирайте и покупайте!
У вас есть интернет-магазин?
Настроим парсер под любой сайт!

Скачать бесплатно пробную (TRIAL) версию программы:
Parser.xla (версия 2.9.20 от 09.07.2017)


Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), и также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция по настройке парсера сайтов для формирования прайса с интернета-магазина:

 

Дополнительная видеоинструкция: загрузка страниц и авторизация на сайте

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Средняя стоимость настройки под конкретный сайт, - 1500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (2500 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Ссылки на инструкции по программе «Парсер сайтов» (список инструкций пополняется)

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Комментарии

Да, это возможно
Либо отправкой POST запросов, либо заполнением полей в браузере Internet Explorer
По POST запросам - видео есть, по заполнению полей в IE - пока нет.

Здравствуйте! Скажите, пожалуйста, возможно ли реализовать через парсер не получение данных, а наоборот загрузку данных на сайт? Например, чтобы заполнять интернет-портал? И если возможно- то есть ли видео на эту тему?

Федор, всё можно настроить. Не видя, что у вас там настроено, конкретный совет дать не могу
Можем настроить под заказ.

Я вероятно не корректно выразил мысль. Суть в том что если на странице2 есть среди прочих данных и одна из ссылок со страницы1, то страницу2 не обрабатывать. Как бы значение при котором парсер пропускает страницу и переходит к следующей. Мне иногда тяжело выразить мысль) Большое спасибо за ваше внимание.

Федор, тут есть 2 варианта:
1) не выводить одинаковые ссылки на лист
Есть специальное действие «Поиск значения в столбце», при помощи которого можно отменить вывод данных на лист
2) действие «Удалить дубликаты по столбцу»
Его можно добавить в набор действий Parser_Finish для удаления дубликатов по окончании работы парсера,
но можно удалять дубликаты и чаще (сразу после вывода блока ссылок)

Добрый день!) А можно увидеть пример настройки в котором получаемые данные сравниваются с данными ранее полученными этим же парсером? Например собрали ссылки со страницы1, потом со страницы2. Ссылки со страницы2 сравниваем со ссылками страницы1 и если совпадают то удаляем, а по остальным продолжаем парсинг.

Андрей, нужно добавить действие «Отправить файл Excel на почту» в набор действий с названием Parser_Finish

Подскажите как настроить отправку итогового файла парсера на mail?

Александр, я бы сделал вот так:

Исходное значение
Ссылка: (откроется в новой вкладке)
Действие Параметр Значение Результат
Сохранить текущее значение в переменную Название переменной URL Ссылка: (откроется в новой вкладке)
<без изменений>
Область видимости parser
 
Загрузить ИСХОДНЫЙ КОД веб-страницы URL   Исходный код веб-страницы (длиной 707080 символов)

<!DOCTYPE html>
<html lang="ru">
<head>
    <meta charset="UTF-8"/>
    <link rel="shortcut icon" sizes="16x16 32x32" href="/favicon.ico">
    <title>Купить Колбасы, ветчина в Москве, цена Колбасы, ветчина с доставкой на дом в интернет магазине Перекресток</title>
ter__item ">
...
</body>
</html>
Кодировка веб-страницы direct
Загружать все страницы результатов  
Выполнять после каждой загрузки  
 
HTML: Поиск тегов Тип элемента span Число (длиной 3 символа)
Название проверяемого атрибута class
Значение проверяемого атрибута js-list-total__total-count
Тип результата / извлекаемый атрибут ConvertToText 1
 
Создать массив чисел (для цикла) Начальное значение 1 Массив из 7 значений:

1
2
3
4
5
6
7
Конечное значение  
Шаг 1
Делитель для конечного значения 24
 
Добавить текст ДО или ПОСЛЕ Префикс %URL%/page/ Массив из 7 значений:

https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetchina/page/1
https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetch...
https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetch...
https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetch...
https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetch...
https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetch...
https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetchina/page/7
Суффикс  
 

Скажите, как правильно организовать получение страниц с интернет-магазина Перекрестка (вот здесь, например - https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetchina).
Там страницы аяксом переключаются, "Получить все ссылки пейджера" не работает.
Посмотрел комментарий http://excelvba.ru/programmes/Parser#comment-7443 - принцип не уловил ((
Подскажите, куда копать, пожалуйста.

Спасибо!!!

В настройках загрузки файлов, на второй вкладке, указывается имя файла
Там даже инструкция написана, что как сделать

Здравствуйте. Подскажите можно ли сделать при загрузке файлов (КАРТИНОК) давать им имена из переменной. Чтоб скачиваемая картинка имела артикул товара. Как это сделать?

Сабрина, я планирую реализовать это в следующих версиях (пока не особо востребовано)
Как только кто-нибудь оплатит эту доработку - сделаю.
Так что просто подождите, - когда-нибудь с очередным обновлением эта возможность появится в программе.

Здравствуйте. В настройках прокси-серверов сказано, что поддерживается только 1 прокси в данной версии программы (у меня последняя 2.9.16). Скажите, в какой версии есть возможность работать через список прокси и как получить эту версию? Спасибо

сама разобралась, если данные списком и нет у них отдельных заголовков, чтобы применить "НазваниеСтолбца|ЗначениеСтолбца" необходимо так настроить - https://yadi.sk/i/QPjfGgd63HSCgT
Пишу, может кому пригодится эта инфа

Елена, тут нет какого-то простого и универсального ответа.
Я не телепат, - не знаю, что и как у вас там настроено.
Помочь с настройкой могу, но помощь с настройкой - только на платной основе
(так как сайтов много, желающих тоже много, - не могу позволить себе помогать всем с настройкой бесплатно)
Я бы с удовольствием подсказал, если вопрос был бы мне понятен
А расписывать кучу вариантов, в надежде что я угадаю, и воссоздавать настройки вашего парсера для тестирования, мне лень.
Если готовы оплатить помощь с настройкой, - пишите в скайп.

но список иногда достигает 400 значений на 1 товар

Парсер может выводить тысячи столбцов (сколько их там есть в Excel)
Можно создавать столбцы динамически, из массива значений вида НазваниеСтолбца|ЗначениеСтолбца

Все же прошу ответить на вопрос!
Как цвето-размерные параметры вывести не в строку, а вниз столбцом? Какую функцию использовать для этого?
Я их вычленила списком, но список иногда достигает 400 значений на 1 товар, а парсер максимум делает 245 столбцов.
Так же пыталась эти данные впихнуть в 1 ячейку с разделителями в самом тексте (для дальнейшей разбивки инструментами самого экселя), но ячейка вмещает всего 8000 символов и часть данных обрезает.
Заранее спасибо за ответ!

ну ясное дело что за деньги вы настроите)))
я купила этот парсер у вас чтобы самой его настраивать)
я уже разобралась что считывается этот блок с помощью "Получить массив из JSON"
поняла как вытянуть данные списком массива, но вот только пока не пойму как не столбцами все варианты вывести а строками

Елена, парсер может взять ЛЮБЫЕ данные со страницы (в том числе и те, что вам нужны)
Можем настроить под заказ.

Приветствую!
Парсер может такой код вытянуть? - view-source:http://11tactical.ru/catalog/bryuki-apex-pant/
введите через контрол+F 'NAME':
у товара на странице 360 вариаций размер+цвет

Да, именно про это там и говорится
Просто посмотрите видео...
https://www.youtube.com/watch?v=4bRwPIX8Wc0&feature=youtu.be&t=459

Разве там описана Http авторизация?

Ответ есть в этой видеоинструкции: загрузка страниц и авторизация на сайте

Подскажите, пожалйуста, если для доступа к домену необходимо указать логин и пароль, а они у меня есть, как это сделать в парсере? При загрузке исходного кода появляется пустой html-документ

Для заполнения полей на странице сайта используется браузер Internet Explorer.
Действие «Найти элемент в Internet Explorer» с третьим параметром SetValue, а четвертый параметр — подставляемое значение

Скажите, пожалуйста, что надо сделать, что надо сделать, чтобы в input подставить значение из полученного массива?

Насчёт убунты - помочь не смогу (во-первых, у меня нет лишнего компа для установки линукса, во-вторых, возни там много, - надо искать что не работает, а кроме вас, подобного никто не просил, так что потраченное время не окупится)
Да и с большой долей вероятности, даже если надстройка запустится под убунтой, работать всё равно не будет (или будут какие ошибки)
Я гарантирую работу программы только под Windows.

Не запускать же виртуальную машину с вин7 на юбунту чтоб с офисом работать

Почему бы и нет?
Многие пользователи моих программ работают на Mac, и используют их под виртуальной машиной.

Нужна совместимость с Microsoft Office 2010 под Ubuntu.

Знаю что на данный момент не популярная ОС по сравнению с Windows, но только ваш парсер удерживает меня от перехода с винды на убунту на работе.
Запускаю и устанавливаю Office через Playonlinux, Ubuntu 16.04 https://www.youtube.com/watch?v=hAl5rrP5sJI - видео тут.

Не запускать же виртуальную машину с вин7 на юбунту чтоб с офисом работать. При открытии вашей надстройки выдает ошибку и предлагает отправить отчет в Мс. Все "доп" компоненты и средства оффисы установлены (аналогичную установку делаю на винде и проблем не возникает). Возможно отсутсвуют какие то библиотеки - нужно знать какие и как их "поставить" доставить в wine да бы все работало как надо - если есть опыт - поделитесь возможно создайте инструкцию для пользователей линукс. Благодарю! Ну или крайний случай это аналогичное приложение для либры офис - но я думаю такое вы не будете делать - слишком много наверное переделывать надо будет.

Добрый день! можно подключить сервис rucaptcha.com - там доступно платное распознавание капчи, не очень дорого - около 4 копеек за капчу. парсер позволяет отправлять запросы на этот сервис и принимать ответ.

можем настроить под заказ, обращайтесь по скайпу antonmashkin

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
               ___    _     _____    ___         
_ __ ___ ( _ ) | |_ | ____| ( _ ) __ __
| '_ ` _ \ / _ \ | __| | _| / _ \ \ \/ /
| | | | | | | (_) | | |_ | |___ | (_) | > <
|_| |_| |_| \___/ \__| |_____| \___/ /_/\_\
Введите код, изображенный в стиле ASCII-арт.