Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

  • парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
  • извлечение данных из файлов формата Word / Excel / txt / PDF
  • скачивание файлов (изображений, документов, и т.п.)
  • обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

  • Запуск парсера нажатием одной кнопки на ленте Excel
  • Для настройки парсеров не нужно знание программирования!
    Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
  • Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
  • Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
    Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
  • Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

  • Множество текстовых функций для обработки полученной информации
  • Разнообразные фильтры и функции перекодировки
  • Работа с переменными и массивами данных
  • Разбиение значений на отдельные элементы с индивидуальной обработкой
  • Автоматический вывод характеристик товаров в отдельные столбцы
  • Интеллектуальный поиск цен на страницах
  • Поддержка форматов JSON и XML

Продвинутые сетевые возможности

  • Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
  • Авторизация — поддержка входа в аккаунты на различных сайтах
  • Региональные настройки — выбор географического региона для парсинга
  • HTTP-запросы — поддержка GET и POST методов, конструктор запросов
  • Cookies и Headers — полная работа с HTTP-заголовками и куки
  • Многопоточность — до 200 одновременных потоков для ускорения работы
  • Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
  • Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
  • Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

  • Рекурсивный поиск страниц на сайтах
  • Поиск данных по HTML-тегам и их атрибутам
  • Автоматическое обнаружение ссылок пагинации (пейджера)
  • Специализированные функции для работы с HTML-таблицами
  • Преобразование HTML в текст и пары "название-значение"
  • Очистка HTML от лишних данных

Интеграция с Excel

  • Чтение данных из файлов Excel для использования в парсинге
  • Создание отдельных листов и файлов
  • Динамическое формирование столбцов для вывода результатов
  • Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
  • Удобная панель инструментов для запуска парсинга

Работа с файлами

  • Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
  • Обработка файлов из заданных пользователем папок
  • Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Видеоинструкция
YouTube
VK Video
RuTube

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Комментарии

Здравствуйте, Евгений.
Да, возможность есть.
Читайте справку по действию HTML: Поиск тегов
https://excelvba.ru/programmes/Parser/actions/GetTags

В четвертом параметре «Тип результата / извлекаемый атрибут» можно указать название атрибута data-product-vendor, и результатом будет значение SPARKY

Есть возможность вот такой тег А разобрать по костям
В нем есть все что нужно - вашими средствами получается только название вытащить - а там и цена и код

Отвертка аккумуляторная SPARKY GR 3,6Li

Здравствуйте, Евгений.
В справке по парсеру написано про возможность использования планировщика задач:
https://excelvba.ru/programmes/Parser/manuals/scheduler

добрый день
Есть возможность запуска парсера не в ручную а в автоматическом режиме?

По сайту vamsvet.ru — там настройка немного нестандартная (пейджер на скриптах, иначе настраивается перебор страниц)
Можете приобрести готовое решение для этого сайта:
https://excelvba.ru/programmes/Parser/samples/vamsvet.ru

Добрый день, подскажите какой использовать префиск пейджера если значение /#p1 Например https://www.vamsvet.ru/catalog/section/lyustry/#p2

Здравствуйте, Вадим

При изменении значений в выпадающих списках на этом сайте выполняются POST запросы
Например, при выборе в первом выпадающем списке значения «автобус» выполняется POST запрос на адрес http://depo.vn.ua/system/ajax с параметрами:

field_transporttype: 2 (номер выбранного значения в списке, начиная с 0. Здесь 2 - это автобус)
_triggering_element_name: field_transporttype (название выпадающего списка)
form_id: rozklad_dependent_dropdown

(там еще куча параметров, но они не меняются)

Посмотрев вторую видеоинструкцию (по настройке POST запросов), можете попробовать настроить
https://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon
За выполнение POST запроса отвечает это действие:
https://excelvba.ru/programmes/Parser/actions/WinHTTP_POST

Для данного сайта настройка не очень проста, так что имеет смысл заказать настройку (разбираться долго будете)

справка к программе довольно слабо расписана, это нарочно сделано?

слишком много разных сайтов,
под все случаи инструкции не напишешь

может дадите свои контакты

контакты указаны на сайте: https://excelvba.ru/contacts

Игорь, может дадите свои контакты - хотел бы обсудить сотрудничество (в частности рефералку)

Игорь, спасибо за ответ. а могли бы более подробно рассказать? хотя бы в двух словах. это в сторону расшифровки json смотреть? справка к программе довольно слабо расписана, это нарочно сделано? хотя сама прога огонь

Щёлкать по выпадающему меню в ИЕ особого смысла нет (зачем?)
Всё можно настроить без использования браузера

Добрый день! Подскажите, пожалуйста, как щелкать по элементам дроп-меню? например здесь http://depo.vn.ua/route
Справка в этом плане очень скудная - я нахожу элемент в открытом ИЕ, щелкаю - но ничего не происходит. Уже все элементы в div с дроп меню перебрал, использовал outer html. Также, не хватает справочных данных про генерируемые события в действии "найти элемент в ИЕ". Возможно, нужно в этом направлении смотреть для моей задачи?

Здравствуйте
Да, возможно
В справке о программе об этом написано

Возможно ли сделать атоматический ввод капчи парсером? мне нужно что бы с сайта ИФНС вытягивал номера ИНН

Здравствуйте, Евгений
Такой возможности в программе не предусмотрено

Добрый день!
Есть возможность проверки запуска парсера на компьютере. Например по id "железа". Хочу передать файл со встроенными настройками и нужно что-бы он работал только на определенном компьютере.

User agent - это лишь один из заголовков запроса
Его вы можете задать какой угодно:
https://excelvba.ru/programmes/Parser/actions/HTTP_headers

Прокси можно прописать пока только один

Планируется ли добавление в программу функцию подмены юзер агентов и прокси серверов и как скоро? Мне кажется, что это неотъемлемая функция, это ведь парсер.

Добрый день!
Подскажите пожалуйста, возможно ли спарсить диапазон ссылок такого типа https://mysyite.com/1-100000
Где 1-100000 - диапазон ссылок. Если да, то какие настройки нужно поставить?

Видимо, у вас кеширование включено (его надо отключить, на вкладке Дополнительно)
Команда "Открыть веб-страницу в IE" у вас берет результат из кеша (не запуская IE), а команда "Прокрутить страницу вниз в IE" пытается подключиться к запущенному IE, и, не видя его, выдаёт пустой результат.

Здравствуйте, у меня такая проблема. Команда "Открыть веб-страницу в IE" работает и выдает html код. Но после этого команда "Прокрутить страницу вниз в IE" выдает пустое значение. Не знаете в чем проблема?

Будет работать в LibreOffice?

Да, сделать можно.
Напишите мне в скайп, обсудим

Добрый день, подскажите пожалуйста можете ли помочь? У меня поставщик присылает Excel файл - прайс с фото , мне нужно его загрузить но чтобы вместо картинок были ссылки с разрешением jpg
можно ли это сделать?

Здравствуйте
Да, можно. Настраивается очень просто
В исходных данных ставите режим «Брать данные из заданного столбца», и прописываете одно действие: Загрузить исходный код веб-страницы.
А в настройках вывода на лист (действия по выводу в столбцы) прописываете поиск тегов

Добрый день!

Скажите, пожалуйста, возможно ли настроить парсинг с помощью Вашего ПО таким образом, чтобы он проходил по всем URL ссылкам сайтов из определенного столбца и уже выводил данные по тегам в другие столбцы?

В вашем видео указано как забирать данные тегов из одной ссылки сайта. А вот если поместить в столбец, к примеру, 20 ссылок на конечный товар, можно настроить, чтобы парсер забирал данные по тегам из каждый ссылки и выводил на лист?

Спасибо!

Виталий, я не готов описывать десятки возможных вариантов
Все сайты разные, в каждом случае настраивается под конкретный сайт.
Где-то проще с IE, где-то можно и без IE обойтись.
Могу настроить под заказ.

добрый день, Игорь. Следующий вопрос интересует: Если на сайте открываются фотографии с использзованием Javascript в новом окне, то необходимо использовать "прогрузить страницу через интернет Exployer"? Судя по вашему видео №2 GoogleChrom вообще не поддерживает работу со скриптами.

спасибо за терпение! Я свяжусь с вами в скайпе в ближайшее время

download master тоже справляется с задачей выгрузки большого количества ссылок, но у вашей программы ряд преимуществ! скорость в разы выше и возможность присвоения имени, вот как раз таки присвоение имени и не выходит как хотелось бы... почему именно вопросы пишу, потому что все сделано по видео мануалу, за которое тоже большое спасибо! пробовал различные варианты, и в выборе исходных данных пришлось немного колдовать, так как все сайты разные.
Посмотрите программу, может в ней что то произошло... Вы же ее постоянно дорабатываете, что то могло и вылететь. Может быть такое что она не считывает в присвоении названия из столбца буквы, а видит только цифры?