Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

  • парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
  • извлечение данных из файлов формата Word / Excel / txt / PDF
  • скачивание файлов (изображений, документов, и т.п.)
  • обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

  • Запуск парсера нажатием одной кнопки на ленте Excel
  • Для настройки парсеров не нужно знание программирования!
    Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
  • Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
  • Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
    Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
  • Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

  • Множество текстовых функций для обработки полученной информации
  • Разнообразные фильтры и функции перекодировки
  • Работа с переменными и массивами данных
  • Разбиение значений на отдельные элементы с индивидуальной обработкой
  • Автоматический вывод характеристик товаров в отдельные столбцы
  • Интеллектуальный поиск цен на страницах
  • Поддержка форматов JSON и XML

Продвинутые сетевые возможности

  • Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
  • Авторизация — поддержка входа в аккаунты на различных сайтах
  • Региональные настройки — выбор географического региона для парсинга
  • HTTP-запросы — поддержка GET и POST методов, конструктор запросов
  • Cookies и Headers — полная работа с HTTP-заголовками и куки
  • Многопоточность — до 200 одновременных потоков для ускорения работы
  • Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
  • Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
  • Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

  • Рекурсивный поиск страниц на сайтах
  • Поиск данных по HTML-тегам и их атрибутам
  • Автоматическое обнаружение ссылок пагинации (пейджера)
  • Специализированные функции для работы с HTML-таблицами
  • Преобразование HTML в текст и пары "название-значение"
  • Очистка HTML от лишних данных

Интеграция с Excel

  • Чтение данных из файлов Excel для использования в парсинге
  • Создание отдельных листов и файлов
  • Динамическое формирование столбцов для вывода результатов
  • Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
  • Удобная панель инструментов для запуска парсинга

Работа с файлами

  • Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
  • Обработка файлов из заданных пользователем папок
  • Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Видеоинструкция
YouTube
VK Video
RuTube

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Комментарии

Добрый день, Александр!

Вот этот пример настройки парсера разберите http://excelvba.ru/programmes/Parser/samples/eafsupplychain

Спасибо огромное, с этим разобрался.
Подскажите пожалуйста как еще пользоватся диалоговым окном выбора переменных, например после запуска парсера я помещаю в переменную ссылки производителей и их название и в это окно я хочу выводить и выбирать в нем производителя для подстановки в парсер ссылки на него для дальнейшего парсинга только определенного производителя а не всех?

Александр, это сложный сайт, тут страницы перелистываются скриптами, и механизм настройки отличается от стандартного.
Сначала, надо загрузить страницу по ссылке, и получить ID категории, чтобы сформировать ссылку вида
https://belbazar24.by/ajax.php?action=get_poducts&cat_id=180

По этой ссылке сервером выдается ответ, где присутствует информация о товарах и количестве страниц в формате JSON
Дальше - сложнее, если сами не разберетесь, можем настроить под заказ.

Пример списка действий, как от исходный ссылке добраться до страниц результатов:

Действие Параметр Значение
Загрузить ИСХОДНЫЙ КОД веб-страницы URL
Кодировка веб-страницы
Загружать все страницы результатов
Выполнять после каждой загрузки
HTML: Поиск тегов Тип элемента input
Название проверяемого атрибута id
Значение проверяемого атрибута cat_id
Тип результата / извлекаемый атрибут value 1
Добавить текст ДО или ПОСЛЕ Префикс https://belbazar24.by/ajax.php?action=get_poducts&cat_id=
Суффикс
Загрузить ИСХОДНЫЙ КОД веб-страницы URL
Кодировка веб-страницы
Загружать все страницы результатов
Выполнять после каждой загрузки
Декодирование JSON

Здравствуйте, делаю настройку парсера вот на эту страничку https://belbazar24.by/catalog/elady/ однако при загрузке кода страницы в парсере - каталог товаров и соответсвенно пейджер - загружается пустой, подскажите как правильно прогрузить полностью страничку с этого сайта?
Заранее благодарен.

Константин, добавьте мою программу (или расширение .xla) в список исключений аваста
Или установите более умный антивирус, типа бесплатного Касперского.
Любой парсер распознаётся антивирусами как вирус (ибо парсер предназначен для скачивания данных и файлов из интернета)
http://excelvba.ru/faq/virus

Добрый день! я скачал файл Parser.xla аваст выдал сообщение о том, что он заражен вирусом MO97:Dropper-AJ

С яндексом (некоторыми сервисами) получится работать только через браузер Internet Explorer
(потому что там скрипты какие-то хитрые, - лично я не понял, как данные вытаскивать из сервисов типа wordstat, если без браузера)
Используйте действие «Открыть страницу в Internet Explorer»

Есть ли решения обхода яндекс защиты?

Парсер не работает с личными кабинетами в яндекс,например из своего аккаунта в яндекс директе нельзя вытащить нужную информацию,защита яндекса от парсеров

Добрый день. А может есть какой-нибудь пример парсера, с авторизацией на сайте.

Видеоурока по Captcha и авторизации пока нет.
Как вариант, - авторизуетесь вручную в браузере Internet Explorer, вводите там капчу,
а парсер потом использует IE для загрузки страниц сайта

Добрый день. а как быть если на сайте необходима авторизация, да еще а капчу ввести требуется. Есть ли видеоурок?

В общем случае, - несильно (если не использовать многопоточную загрузку)
Для сервера, 1-10 запросов в секунду (именно столько идет от парсера, в большисетве случаев) — это мелочи (проблемы начинаются при сотнях и более запросов в секунду, и то только на слабых сайтах)

Добрый день.
Подскажите пожалуйста, насколько сильно программа "нагружает" сайт, который парсит.

Евгений, настройка под сайты не входит в техподдержку
На примерах настроенных парсеров видно, что всё работает как надо.
Напишите в скайп, попробую помочь.

Оплатить могу, но на данный момент я даже не знаю как она работает в реале , я 1 сайт не могу настроить, а у меня их несколько, вы что по каждому сайту со мной будете ходить. Все таки для начала хочется, чтобы программа на пробном периоде показала себя с лучшей стороны, а пока по итогу мы имеем программу, но настроить получилось только для 340 позиций товара,вместо 2500. Предлагаю пока с вашими силами настроить программу на корректную работу для 1 сайта, хоть и на пробном периоде, а далее уже говорить о деньгах, спасибо за понимание, жду вашего ответа Игорь.

Евгений, если готовы оплатить лицензию на программу, - пишите в скайп, помогу с настройкой.

Игорь не получается ,перепроверил,делаю все по видео, категории 19 шт в моем случае он нашел,а по страницам не ходит все равно! Как быть?!

С этим - не ко мне, это к Касперскому вопросы.
Мои надстройки (все) вносят изменения в какие-либо файлы Excel (именно для этого они и предназначены), а что там антивирус думает, я не в курсе.

Когда Parser.xla делает какие то действия с файлом prices (4).xls "Защита от шифрования" думает что Parser.xla пытается его зашифровать. Поэтому и выдает данное сообщение.

Иван, касперский же вам пишет, на какой файл сработка, - prices (4).xls
А моя программа имеет другое имя файла, и расширение xla
Так что, с этим не ко мне.
Если в этом файле (prices (4).xls) у вас вирус, - то он может запускаться вместе с Excel, как и моя программа
Можете отключить мою программу из автозапуска, и проверить

Здравствуйте. Используем Вашу программу. В "Kaspersky Security 10 для Windows Server 10.0.0.486" есть "Защита от шифрования". В момент запуска Вашей программы она срабатывает.

Обнаружен объект: HEUR:Generic.Unknown.Cryptor.
Имя объекта: D:\UsersDesktops\?????????\Рабочий стол\prices (4).xls

Сейчас заново все перепроверю, возможно где то допустил ошибку.

Начат поиск пейджера, длина HTML кода: 58582
Применён HTML фильтр class=pagination
(длина HTML после фильтрации: 0)
Ошибка поиска пейджера - после фильтрации получено пустое значение.

Сделал все как написали, вот такая Ошибка!

В действии «HTML: Получить все ссылки пейджера» укажите следующие параметры:

HTML фильтры class=pagination
Префикс пейджера start=

Результатом будет массив из 10 ссылок

Без проблем ,вот ссылка http://toys.ost-com.ru/products/74178/ ,на странице 20 товаров, не могу указать чтобы он получил все ссылки на остальные страницы и выгрузил весь товар, а то он по 20 шт выгружает в XML и переходит в след категорию ,а по страницам в каждой категории не ходит, только на 1-вой страницы!

Евгений, а что конкретно не получается? ссылки пейджера не находятся?
Надо реальную ссылку показывать (на страницу, с которой надо взять все ссылки пейджера), иначе помочь не смогу

День добрый.
Вопрос такой, добавляю действие "получить все ссылки пейджера" вместо "Offset" у меня надпись "?Start=" вставляю ее чтобы проспарсить все ссылки, а ничего не происходит, как решить данную проблему.
Пример:
http://primer-com.ru/products/74169?start=12
http://primer-com.ru/products/74170?start=12
(ссылки не рабочие, для примера)

Максим, если программа выдает массив из нескольких значений (разделенные тильдами с квадратиками), тут можно:
1) взять какое-то одно для вывода
2) сцепить все элементы массива через разделитель типа запятой или пробела

Эти действия есть в разделе «Функции массива»
И никаких квадратиков с тильдами не будет
Надо всего лишь добавить одно действие (последним) для соответствующего столбца

Разобрался. Как один из вариантов использовать функцию печсимв() для удаления квадратов. Далее все работает.