Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

  • парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
  • извлечение данных из файлов формата Word / Excel / txt / PDF
  • скачивание файлов (изображений, документов, и т.п.)
  • обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

  • Запуск парсера нажатием одной кнопки на ленте Excel
  • Для настройки парсеров не нужно знание программирования!
    Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
  • Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
  • Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
    Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
  • Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

  • Множество текстовых функций для обработки полученной информации
  • Разнообразные фильтры и функции перекодировки
  • Работа с переменными и массивами данных
  • Разбиение значений на отдельные элементы с индивидуальной обработкой
  • Автоматический вывод характеристик товаров в отдельные столбцы
  • Интеллектуальный поиск цен на страницах
  • Поддержка форматов JSON и XML

Продвинутые сетевые возможности

  • Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
  • Авторизация — поддержка входа в аккаунты на различных сайтах
  • Региональные настройки — выбор географического региона для парсинга
  • HTTP-запросы — поддержка GET и POST методов, конструктор запросов
  • Cookies и Headers — полная работа с HTTP-заголовками и куки
  • Многопоточность — до 200 одновременных потоков для ускорения работы
  • Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
  • Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
  • Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

  • Рекурсивный поиск страниц на сайтах
  • Поиск данных по HTML-тегам и их атрибутам
  • Автоматическое обнаружение ссылок пагинации (пейджера)
  • Специализированные функции для работы с HTML-таблицами
  • Преобразование HTML в текст и пары "название-значение"
  • Очистка HTML от лишних данных

Интеграция с Excel

  • Чтение данных из файлов Excel для использования в парсинге
  • Создание отдельных листов и файлов
  • Динамическое формирование столбцов для вывода результатов
  • Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
  • Удобная панель инструментов для запуска парсинга

Работа с файлами

  • Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
  • Обработка файлов из заданных пользователем папок
  • Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Видеоинструкция
YouTube
VK Video
RuTube

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Комментарии

Я не консультирую по вопросам настройки под конкретные сайты
(тем более в случае с этим сайтом, - там много настраивать, а описывать процесс настройки - еще дольше)
Можем настроить под заказ.

Добрый день!
Подскажите, пожалуйста, как на этой странице: https://rosreestr.ru/wps/portal/online_request выбрать пункт в выпадающем списке? Там где "Адрес" надо выбрать субъект "Ивановская область".
Заранее спасибо!

Здравствуйте, Сергей
Да, можно спарсить эту таблицу.
Можем настроить под заказ.

Заказы на парсер принимаются в таком виде:
http://excelvba.ru/programmes/Parser/order

Здравствуйте. Скажите пожалуйста, возможно ли спарсить Вашей программой таблицу на этом сайте https://vprognoze.ru/robobet/ ? в демо версии отображается кусок кода и я не могу протестировать

Не может быть такого. Что-то не так настроили (или где-то всё же осталась включена многопоточная загрузка для тысяч страниц)
Напишите в скайп, если сами не разюерётесь

Даже при обработке поочередно возникает ошибка out of memory

В вашем случае, многопоточная загрузка не подойдёт, - обрабатывайте всё поочерёдно.
Можно поколдовать с настройками, и сделать как вы хотите, - но это нестандартное использование программы (долго расписывать, что как сделать), потому без подробностей.
Впредь, постараюсь предусмотреть для такого отдельное действие

Добрый день.
Как обработать большой массив данных адресов (более 10000) из файла sitemap при многопоточной загрузке. Оперативной памяти не хватает при единовременной обработке. Есть ли какая-нибудь команда обработки массива по частям?

Сергей, откат на предыдущую версию не предусмотрен.
Не обновляйте программу (хотя, эти проблемы не из-за обновления), или же всегда используйте последнюю версию.
Описанные вами проблемы - скорее, результат неверной настройки.
За последний год в этом плане (переменные, воды переносов строки) ничего не менялось

А подскажите как откатиться на предыдущую версию? А то бывают косяки при обновлении. К примеру не заменяется {NL} и {LF} в результате обработки, а выводиться результат корректно. Почему то при скачивании фото на hdd не берется название из переменной или определенной ячейки, если поставить галку автоматический из урла, фото создается. Косяки были с таблицей замены на предыдущей версии, сейчас все хорошо в последней.

Добрый день!

Вы какой программой обрабатываете прайс? Унификация прайсов или парсер? Это комментарии к парсеру.

напишите в скайп antonmashkin, посмотрим.

Добрый день, Ольга!

страницы пейджера создаются скриптом на этом сайте. Вам надо
найти div с классом paginator_pages,
взять количество страниц,
далее создать массив чисел до этого количества
и добавить текст ДО %ссылка на категорию%/page/
получите массив ссылок. Если не разберетесь, пишите в скайп antonmashkin

При настройке парсера не подгружаются страницы пейджера. В чем может быть причина. Сайт http://pivdenoptika.com.ua/

Добрый день. Пытаюсь разобраться с программой. Тестирую программу используя сайт http://pivdenoptika.com.ua/
Дошла до "Получить все ссылки пейджера" Далее программа не надоходит ссылок. В чем может быть проблема? Заранее спасибо за ответ

Добрый день, подскажите , проблема с обработкой прайсов.
Обработчик обрабатывает только 24588 строк из 69382 строк в одном прайс листе.
Остальные обрабатывает корректно. В чём может быть проблема и возможно ли её решить?

Добрый день, Ирина!

Да, можно, ответил Вам на почту.

Добрый день. подскажите можно ли написать программу (парсер) для заливки фото на сайт совместных покупок . но только у меня кнопки загрузить нет. но знаю что программисты как то закачивают их

скажите я работаю организатор на сайте. мне нужна программа для заливки товара (парсер) но кнопки загрузить в моей программе нет. можете ли вы помочь?

По окончании тестового периода, пользоваться программой нет возможности (до покупки)

Добрый день,

Подскажите Прасер по истечении пробного периода перестает работать вообще или работает в каком-нибудь ограниченном режиме?

Елена, надо сначала применить действие ЗАГРУЗИТЬ СОДЕРЖИМОЕ ТЕКСТОВОГО ФАЙЛА,
а потом применять действие ВЫБОРКА ИЗ XML (которое вы сейчас неправильно используете)
Лучше воспользуйтесь вторым действием ПОИСК ТЕГОВ из раздела Действия для работы с HTML
Если сами не разберетесь, можем настроить под заказ.


Андрей, время ожидания ответа сервера задается в настройках парсера на вкладке ДОПОЛНИТЕЛЬНО.
Что касается авторизации, - посмотрите вторую видеоинструкцию, там про это рассказывается, что как настроить

Что делать при ошибке "Сайт не дает ответа за 6 секунд"??
Можно ли в настройках программы сделать время ожидания чуть больше?

Приветствую!
Помогите с выгрузкой данных с XML
в скрине суть вопроса - https://yadi.sk/i/1l7gxYI53LVn3m

Добрый день!
Подскажите пожалуйста, можно ли настроить парсер таким образом, чтобы при входе на стартовую страницу он заполнял логин и пароль пользователя, т.е. входил в систему и далее продолжал действия.
Необходимо войти в веб-клиент почты и оттуда взять конкретные строки из писем. При попытке "загрузить ИСХОДНЫЙ КОД веб-страницы" ---> "Тестировать" для страницы входа пишет "Сервер не ответил за 6 секунд". Вот хотел бы узнать из-за чего оно так

Виктор, всё можно, если вы объясните подробно, что где и как искать надо (если опишете алгоритм поиска)

Добрый день
можно настроить парсер, чтобы делал парсинг по счету или счет-фактуре (артикулу) на указанных сайтах, т.е. заполнял значениями файл в соответствии с порядком в счете?

есть готовый парсер под этот сайт
Напишите в скайп или на почту
там 2 варианта: первый - делать через браузер IE (легко настроить, но браузер подвисать может),
и второй, сложный, через отправку доп запросов при наличии кнопки ПОКАЗАТЬ ЕЩЕ
У меня реализованы оба варианта

здравствуйте! никак не могу "нажать" кнопку показать ещё вот на этом сайте https://www.materik-m.ru/shop-cat-gipsokarton_gvlv_akvapanel_fajerbord_s...
Помогите пожалуйста)

Всё можно настроить
На зная, что за сайт, и что за фильтр, никого конкретного посоветовать не могу
Можем настроить парсер под заказ

Уважаемые администраторы сайта!
Очень интересный и много функциональный у вас сайт я просто восхищён что делает парсинг сайтов, но у меня есть несколько вопросов можно ли спарсить данные если ты заходишь на сайт а там сразу стоит фильтр например запрашивает бин, что можно сделать в таком случае?