Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.
Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).
В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.
Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.
За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)
В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.
Пример использования парсера для мониторинга цен конкурентов
Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.
Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.
Программа «Парсер сайтов» может быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.
Справка по программе «Парсер сайтов»
Можно попробовать разобраться с работой программы на примерах настроенных парсеров
Комментарии
Федор, тут есть 2 варианта:
1) не выводить одинаковые ссылки на лист
Есть специальное действие «Поиск значения в столбце», при помощи которого можно отменить вывод данных на лист
2) действие «Удалить дубликаты по столбцу»
Его можно добавить в набор действий Parser_Finish для удаления дубликатов по окончании работы парсера,
но можно удалять дубликаты и чаще (сразу после вывода блока ссылок)
Добрый день!) А можно увидеть пример настройки в котором получаемые данные сравниваются с данными ранее полученными этим же парсером? Например собрали ссылки со страницы1, потом со страницы2. Ссылки со страницы2 сравниваем со ссылками страницы1 и если совпадают то удаляем, а по остальным продолжаем парсинг.
Андрей, нужно добавить действие «Отправить файл Excel на почту» в набор действий с названием Parser_Finish
Подскажите как настроить отправку итогового файла парсера на mail?
Александр, я бы сделал вот так:
<без изменений>
Скажите, как правильно организовать получение страниц с интернет-магазина Перекрестка (вот здесь, например - https://www.perekrestok.ru/catalog/myaso-ptitsa-delikatesy/kolbasy-vetchina).
Там страницы аяксом переключаются, "Получить все ссылки пейджера" не работает.
Посмотрел комментарий http://excelvba.ru/programmes/Parser#comment-7443 - принцип не уловил ((
Подскажите, куда копать, пожалуйста.
Спасибо!!!
В настройках загрузки файлов, на второй вкладке, указывается имя файла
Там даже инструкция написана, что как сделать
Здравствуйте. Подскажите можно ли сделать при загрузке файлов (КАРТИНОК) давать им имена из переменной. Чтоб скачиваемая картинка имела артикул товара. Как это сделать?
Сабрина, я планирую реализовать это в следующих версиях (пока не особо востребовано)
Как только кто-нибудь оплатит эту доработку - сделаю.
Так что просто подождите, - когда-нибудь с очередным обновлением эта возможность появится в программе.
Здравствуйте. В настройках прокси-серверов сказано, что поддерживается только 1 прокси в данной версии программы (у меня последняя 2.9.16). Скажите, в какой версии есть возможность работать через список прокси и как получить эту версию? Спасибо
сама разобралась, если данные списком и нет у них отдельных заголовков, чтобы применить "НазваниеСтолбца|ЗначениеСтолбца" необходимо так настроить - https://yadi.sk/i/QPjfGgd63HSCgT
Пишу, может кому пригодится эта инфа
Елена, тут нет какого-то простого и универсального ответа.
Я не телепат, - не знаю, что и как у вас там настроено.
Помочь с настройкой могу, но помощь с настройкой - только на платной основе
(так как сайтов много, желающих тоже много, - не могу позволить себе помогать всем с настройкой бесплатно)
Я бы с удовольствием подсказал, если вопрос был бы мне понятен
А расписывать кучу вариантов, в надежде что я угадаю, и воссоздавать настройки вашего парсера для тестирования, мне лень.
Если готовы оплатить помощь с настройкой, - пишите в скайп.
Парсер может выводить тысячи столбцов (сколько их там есть в Excel)
Можно создавать столбцы динамически, из массива значений вида НазваниеСтолбца|ЗначениеСтолбца
Все же прошу ответить на вопрос!
Как цвето-размерные параметры вывести не в строку, а вниз столбцом? Какую функцию использовать для этого?
Я их вычленила списком, но список иногда достигает 400 значений на 1 товар, а парсер максимум делает 245 столбцов.
Так же пыталась эти данные впихнуть в 1 ячейку с разделителями в самом тексте (для дальнейшей разбивки инструментами самого экселя), но ячейка вмещает всего 8000 символов и часть данных обрезает.
Заранее спасибо за ответ!
ну ясное дело что за деньги вы настроите)))
я купила этот парсер у вас чтобы самой его настраивать)
я уже разобралась что считывается этот блок с помощью "Получить массив из JSON"
поняла как вытянуть данные списком массива, но вот только пока не пойму как не столбцами все варианты вывести а строками
Елена, парсер может взять ЛЮБЫЕ данные со страницы (в том числе и те, что вам нужны)
Можем настроить под заказ.
Приветствую!
Парсер может такой код вытянуть? - view-source:http://11tactical.ru/catalog/bryuki-apex-pant/
введите через контрол+F 'NAME':
у товара на странице 360 вариаций размер+цвет
Да, именно про это там и говорится
Просто посмотрите видео...
https://www.youtube.com/watch?v=4bRwPIX8Wc0&feature=youtu.be&t=459
Разве там описана Http авторизация?
Ответ есть в этой видеоинструкции: загрузка страниц и авторизация на сайте
Подскажите, пожалйуста, если для доступа к домену необходимо указать логин и пароль, а они у меня есть, как это сделать в парсере? При загрузке исходного кода появляется пустой html-документ
Для заполнения полей на странице сайта используется браузер Internet Explorer.
Действие «Найти элемент в Internet Explorer» с третьим параметром SetValue, а четвертый параметр — подставляемое значение
Скажите, пожалуйста, что надо сделать, что надо сделать, чтобы в input подставить значение из полученного массива?
Насчёт убунты - помочь не смогу (во-первых, у меня нет лишнего компа для установки линукса, во-вторых, возни там много, - надо искать что не работает, а кроме вас, подобного никто не просил, так что потраченное время не окупится)
Да и с большой долей вероятности, даже если надстройка запустится под убунтой, работать всё равно не будет (или будут какие ошибки)
Я гарантирую работу программы только под Windows.
Почему бы и нет?
Многие пользователи моих программ работают на Mac, и используют их под виртуальной машиной.
Нужна совместимость с Microsoft Office 2010 под Ubuntu.
Знаю что на данный момент не популярная ОС по сравнению с Windows, но только ваш парсер удерживает меня от перехода с винды на убунту на работе.
Запускаю и устанавливаю Office через Playonlinux, Ubuntu 16.04 https://www.youtube.com/watch?v=hAl5rrP5sJI - видео тут.
Не запускать же виртуальную машину с вин7 на юбунту чтоб с офисом работать. При открытии вашей надстройки выдает ошибку и предлагает отправить отчет в Мс. Все "доп" компоненты и средства оффисы установлены (аналогичную установку делаю на винде и проблем не возникает). Возможно отсутсвуют какие то библиотеки - нужно знать какие и как их "поставить" доставить в wine да бы все работало как надо - если есть опыт - поделитесь возможно создайте инструкцию для пользователей линукс. Благодарю! Ну или крайний случай это аналогичное приложение для либры офис - но я думаю такое вы не будете делать - слишком много наверное переделывать надо будет.
Добрый день! можно подключить сервис rucaptcha.com - там доступно платное распознавание капчи, не очень дорого - около 4 копеек за капчу. парсер позволяет отправлять запросы на этот сервис и принимать ответ.
можем настроить под заказ, обращайтесь по скайпу antonmashkin
Добрый ден! Подскажите, пожалуйста, как с использованием куки бороться с капчей? На сайте, который парсится есть капча, но ни увеличение ожидания между запросами, ни использование прокси не помогает. Сайт reformagkh.ru
Этот вопрос лучше адресовать телепатам (которые знают, с какой страницы вы ссылки собираете, и какие там параметры указали)
А если нужна моя помошь, - напишите мне в скайп или не почту, с какого URL надо взять ссылки пейджера, и какие параметры вы задали у действия
Добрый день! Парсер никак не хочет находить ссылки пейджера, хотя HTML фильтр и маска указаны верно, подскажите, пожалуйста, как быть?
Очень даже спасибо)