Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.
Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).
В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.
Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.
За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)
В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.
Пример использования парсера для мониторинга цен конкурентов
Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.
Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.
Программа «Парсер сайтов» может быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.
Справка по программе «Парсер сайтов»
Можно попробовать разобраться с работой программы на примерах настроенных парсеров
Комментарии
Добрый ден! Подскажите, пожалуйста, как с использованием куки бороться с капчей? На сайте, который парсится есть капча, но ни увеличение ожидания между запросами, ни использование прокси не помогает. Сайт reformagkh.ru
Этот вопрос лучше адресовать телепатам (которые знают, с какой страницы вы ссылки собираете, и какие там параметры указали)
А если нужна моя помошь, - напишите мне в скайп или не почту, с какого URL надо взять ссылки пейджера, и какие параметры вы задали у действия
Добрый день! Парсер никак не хочет находить ссылки пейджера, хотя HTML фильтр и маска указаны верно, подскажите, пожалуйста, как быть?
Очень даже спасибо)
Федор, пример регулярного выражения для поиска email есть в этом парсере:
http://excelvba.ru/programmes/Parser/samples/email_parser
Подскажите пожалуйста, получаю парсером содержимое в текстовом виде. В этом содержимом нужно найти и сохранить электронный адрес. Взять текст до и после не подходит потому что нет закономерности в тексте. Подходят регулярные выражения, но почему то не срабатывает. Можно увидеть пример использования регулярок в таком ключе?
Спасибо!
В настройках парсера, на вкладке ДОПОЛНИТЕЛЬНО, увеличьте время ожидания ответа с 6 секунд до 20, например
День добрый!
Подскажите, пожалуйста, как решить проблему: сайт, который выгружаю, очень долго грузится (более 6 сек) из-за большого объема данных, а оператор "Загрузить ИСХОДНЫЙ КОД веб-страницы" выдает ошибку Сервер не ответил за 6 сек. Но я знаю точно, что надо просто подождать и страница загрузится. Как решить эту проблему?
Спасибо.
Василий, у меня такое впечатление, что вы что-то не то настраиваете
Массив значений выводится наверняка же начиная не с 257-го столбца, — если надо выводить однотипные данные, начиная, к примеру, с 50 по 1000 столбцы, то в настройках задается вывод в столбец 50, со включенной опцией формирования остальных столбцов (там 2 варианта есть)
Но можно и увеличить количество столбцов в настройках
Откройте редактор реестра (Пуск - Выполнить - regedit), найдите ветку
HKEY_CURRENT_USER\Software\VB and VBA Program Settings\Parser\Settings
и создайте там новый строковый параметр с названием MAX_COLUMN и значением, например, 1000
PS: Если вы хотите в настройки парсера (в вывод на лист) добавлять (настраивая) 1000 столбцов, - вы явно перемудрили с настройкой. Всё делается намного проще. Могу настроить под заказ.
Здравствуйте. Подскажите в настройках "вывод на лист" в основных настройках, номер столбца максимальное количество устанавливается 256. А мне нужно больше!!! Делается массив значений в отдельные столбцы и у меня их около 1000.
Ильнар, да, я в курсе (что 10 дней вместо 15 даётся), позже исправлю
Установил сегодня 15.04.17 Parser.xla. Он показал, пробная версия программы . Осталось: 10 дней.
Не претензия!!! Это к информации. Для тестирования думаю хватит 10 дней
Большое спасибо - очень помогли!!!
Алексей, для этого сайта можно получить все результаты, не перебирая ссылки пейджера
Допишите в конец URL (до загрузки страницы по ссылке) текст &pages=1000, и тогда сайт выведет все результаты (точнее, первые 1000 результатов) на одной странице.
Должна получиться такая ссылка: http://www.geo-home.com/index.php?lang=ru&act=search&t=sale&c=new&nw=nbu...
Небольшая проблемка с настройками парсера - не могу прогрузить все ссылки пейджера. Вот сама страничка http://www.geo-home.com/index.php?lang=ru&act=search&t=sale&c=new&nw=nbu... и скриншотик https://www.screencast.com/t/k8qHXDFW
отсутствует префикс пейджера. Как быть в этом случае, как прогрузить все ссылки сраниц?
Евгений, из вашего вопроса непонятно, надо убрать лишние описания в процессе работы парсера, или по окончании его работы (отфильтровав таблицу с результатом)
Позвоните в скайп, попробую помочь
Добрый день!
После работы парсера получаю массив описаний товара, как оставить только те описания где более 200 знаков.
Заказали парсер для работы с предложениями на сайте Авито. Всё работает, помогает очень хорошо.
Особенно хочется отметить хорошую поддержку данного продукта. Сайт постоянно меняется, естественно нарушается работа парсера. Однако разработчики очень быстро присылают исправленные варианты, практически в день обращения.
Пользуемся уже около полугода. Спасибо.
Здравствуйте
По этому режиму инструкции нет, но там все просто - указываете столбец с исходными данными, и все значения из него по-очереди подаются на вход обработки в исходные действий
Игорь, здравствуйте! Гениальное ПО, спасибо!!! А у Вас есть видеоинструкция, где более подробно рассматривается функционал "брать данные с листа Excel, из заданного столбца" во вкладке "исходные данные"??? Пытаюсь разобраться самостоятельно, но без навыков программирования нелегко это))
Квадратные и фигурные скобки, - это, наверное, формат JSON
В парсере есть функция «Преобразовать JSON в XML», а после этого работаем как с HTML, поиском нужных тегов.
Подскажите, пожалуйста, какой функцией заменить все запятые в тексте кроме тех, которые внутри квадратных скобок и внутри фигурных скобок. Заменить на разрыв строки.
брандмауэр Windows отключен, антивирусов нет. Скайпа нет.
Проверьте, что брандмауэр Windows отключен, и что антивирусы не блокируют доступ экселю в интернет
Ну а если сами не разберетесь, - пишите в скайп, попробую помочь
Не помогло. mario.ua - ошибка "Сервер не ответил за 6 сек".
Возможно, у вас в системе где-то какой-то прокси прописан, или еще что-то в тоже же духе.
Парсеры, скачанные из примеров настроенных, должны работать (по крайней мере, недавно опубликованные)
На этом парсере проверьте - он 100% должен заработать: http://excelvba.ru/programmes/Parser/samples/mario.ua
Если не заработает - пишите в скайп, разберемся
Демо-версия. Такая же проблема. При парсинге страницы сайта выдает ошибку "Сервер не ответил за 6 сек". Увеличение таймаута запроса не помогает.
Страницы парсит только один парсер: тот, который я создал самым первым. Все последующие парсеры не работают (даже, если создать полную копию первого парсера, если загрузить пример парсера с сайта http://excelvba.ru/, не помогает ничего).
Это что, ограничение демо-версии?
Посмотрите видеоинструкцию из этой статьи:
Загрузка страниц сайта парсером
Возможно, нужно выбрать другой способ загрузки страницы, или передавать заголовки запроса