Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

  • парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
  • извлечение данных из файлов формата Word / Excel / txt / PDF
  • скачивание файлов (изображений, документов, и т.п.)
  • обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

  • Запуск парсера нажатием одной кнопки на ленте Excel
  • Для настройки парсеров не нужно знание программирования!
    Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
  • Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
  • Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
    Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
  • Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

  • Множество текстовых функций для обработки полученной информации
  • Разнообразные фильтры и функции перекодировки
  • Работа с переменными и массивами данных
  • Разбиение значений на отдельные элементы с индивидуальной обработкой
  • Автоматический вывод характеристик товаров в отдельные столбцы
  • Интеллектуальный поиск цен на страницах
  • Поддержка форматов JSON и XML

Продвинутые сетевые возможности

  • Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
  • Авторизация — поддержка входа в аккаунты на различных сайтах
  • Региональные настройки — выбор географического региона для парсинга
  • HTTP-запросы — поддержка GET и POST методов, конструктор запросов
  • Cookies и Headers — полная работа с HTTP-заголовками и куки
  • Многопоточность — до 200 одновременных потоков для ускорения работы
  • Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
  • Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
  • Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

  • Рекурсивный поиск страниц на сайтах
  • Поиск данных по HTML-тегам и их атрибутам
  • Автоматическое обнаружение ссылок пагинации (пейджера)
  • Специализированные функции для работы с HTML-таблицами
  • Преобразование HTML в текст и пары "название-значение"
  • Очистка HTML от лишних данных

Интеграция с Excel

  • Чтение данных из файлов Excel для использования в парсинге
  • Создание отдельных листов и файлов
  • Динамическое формирование столбцов для вывода результатов
  • Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
  • Удобная панель инструментов для запуска парсинга

Работа с файлами

  • Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
  • Обработка файлов из заданных пользователем папок
  • Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Видеоинструкция
YouTube
VK Video
RuTube

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Комментарии

Да их несколько этих сайтов поэтому и не указал. Вопрос такой, если я приобретаю ваш парсер, то сколько будет стоить настройка под определенный сайт?

Добрый день, Олег!

Вы не указали ссылку на сам сайт, но с очень высокой степенью вероятности это возможно сделать.

Если желаете оформить заказ - здесь инструкция к оформлению http://excelvba.ru/programmes/Parser/order

Здравствуйте
Подскажите пожалуйста, можно ли будет настроить парсер таким образом, чтобы он скачал все фото товаров с указанного адреса сайта?
без заранее указанных ссылок на эти фото.

Михаил, это происходит потому, что в файле присутствуют символы, недопустимые в кодировке Windows-1251
Например, китайский иероглиф невозможно сохранить в кодировке Windows-1251
Потому и ошибка возникает (а в UTF-8 такой ошибки нет, - так как там можно сохранить очень много разных символов)

Насчет ошибки - я в курсе, в будущих версиях доработаю, чтобы программа удаляла такие символы (которые не поддерживаются выбранной кодировкой)
Часть данных может потеряться при этом, - но иначе никак.

Здравствуйте, Игорь!
Исправьте, пожалуйста, ошибку:
при сохранении в CSV файл в кодировке 1251 выдает ошибку, (При создании CSV файла в кодировке «windows-1251» произошла ошибка #5 (Invalid procedure call or argument))
в UTF-8 сохраняет нормально

Очень сожалею, что мы неправильно друг друга поняли. Ценю высоко ваш профессиональный уровень, отзывчивость и помощь в настройке парсера.

Елена, извиняться и объяснять что-либо я не намерен, т.к. вы пишете какую-то чушь.

Вы успешно активировали программу на 4 компах (никто вам не мешал это сделать),
никто с вас не требовал денег за консультацию (у меня всегда консультации бесплатные).
Но если вам нужна настройка парсера под очередной сайт, - это уже оплачивается (я не готов вам в рамках консультаций настраивать постоянно разные парсеры)

Я отказываю в консультациях в 1 случае из 1000 (за последние 3 года - только одному покупателю отказал). И вот после этого вашего коммента, - больше помогать вам не буду
(я вам бесплатно по скайпу настроил парсер под новый сайт, пару дней назад, и всё объяснил, - а последовала вот такая неожиданная реакция.
Отныне, не буду вам помогать ни платно, ни бесплатно, - не люблю необоснованные обвинения в свой адрес)

26 марта 2016 г во время консультации по настройке парсера автор закрыл лицензию на программу, не объяснив причин, и потребовал в дальнейшем консультации оплачивать. На каком основании? Хотелось бы узнать от автора причины данного поступка и извинений, хотя бы.

не могу настроить
http://nbt.tj/tj/kurs/kurs.php
как сделать не подскажите

Таблицу валют - можно загрузить, если есть откуда загружать)

Здравствуйте возможно ли загрузить таблицу курсами валют

Спасибо за парсер, отлично все работает. Отдельное спасибо Антону, который настраивал его под наше ТЗ. Все сделано очень быстро и грамотно, учтены совершенно все пожелания. Удачи Вам.

Еще неплохо иметь звуковое оповещение при ошибке парсера.

Звуковой сигнал (Beep) через запуск внешнего макроса можно сделать.

Здравствуйте.
Сейчас такой возможности нет (никто ранее не просил), но сделать несложно (если нужно)

Добрый день!
Подскажите, есть ли возможность звукового оповещения окончания работы парсера Beep() через динамик системного блока.

Дмитрий, попробуйте антивирус отключить (особенно если используется Аваст), и скачайте заново.

Хотел скачать Ваш парсер. Скачивает файл полностью, а потом выдает "Прервано: ошибка загрузки".
Такой результат я получил на Опере и Хроме. Internet Explorer вообще отказался качать.

Насчёт паузы, - в новой версии (2.0.5) появилась такая возможность.
Смотрите последний пример в инструкции для действия «Случайное число»

Что касается второго вопроса, — сделать можно разными способами,
но, поскольку из вашей формулировки вопроса я мало что понял, — ничего конкретного посоветовать не могу.
Позвоните в скайп, объясните мне, что надо сделать, — и я подскажу, как это делается.

Ниже в комментариях был вопрос про паузу (рендом) мне тоже интересно, как в парсере ее сделать? Напишите пожалуйста.
Игорь, как поступить в такой ситуации: Парсер исполняет команды 1-2-3-4, по циклу как в команде -3- задать значение которое меняется? Скажем 3 команде может соответствовать значения а,б,в из определенного листа. Что бы работа парсера получилась:
1-2-а-4
1-2-б-4
1-2-в-4

Алексей, да, конечно может.
Там есть специальное действие «Авторизация на сайте» - для 95% сайтов его будет достаточно,
для остальных настраивается чуть сложнее, - но тоже можно.

может ли программа парсить сайт если сначала нужно пройти авторизацию на сайте?

Здравствуйте.
Среди опубликованных примеров, вроде было что-то подобное.
Но не факт, что для вашего случая это подойдет (если пейджер на скриптах вместо ссылок, - там всё сложнее)
Если сами не разберётесь, - звоните в скайп, подскажу, что как сделать.

Добрый день!
Есть пример настроенного парсера с пейджером страниц? если нет то как получить все страницы (сейчас получается только 4 их более 100)

Windows 7 - английская верися. Русский язык есть только в раскладке.

С кодировкой - проблема бывает, если Windows некорректно русифицирована.
Для решения проблемы, нажмите О ПРОГРАММЕ - АКТИВАЦИЯ, в поле активация введите CP1251
и нажмите кнопку Активировать.
Спустя пару секунд откроется архив с файлом 1251.reg - запустите этот файл, и после перезапуска компа проблема с кодировками будет решена.

И да, в новой версии программы тестовый период продлен до 15 дней.

Часть текста в парсере Parser_v1249 и папка с настройками переименовалась в непонятную кодировку (CP1252) такого вида: Íàñòðîéêè ïàðñåðîâ
В версии 2 такая же тема. Виндоус 7. Оффис 2010. До этого таких проблем не было дистрибутивы одни и теже. Недавно переустанавливал виндоус.
Так же в версии 1249 правильно ли я понял вместо 20 запусков теперь дается 15 пробных дней?

Получилось с notregexp и маской \d\d\d

Попробовал сделать - выдает пустое значение
http://prnt.sc/a9w9w2
При использовании notregexp результат лучше, но по непонятным причинам остается еще один элемент массива
http://prnt.sc/a9wcmw

Словарика (полноценной справки по программе) пока нет
Для всех полей параметров действий:
%varname% - подставить значение переменной varname
{1} или {5} - подставить значение из столбца 1 (или 5) текущей строки листа

Что касается подстановочных символов типа *#? для маски (в некоторых действиях) - тут все просто
(* это любое количество любых символов, ? это один любой символ, # это одна любая цифра)

Что касается regexp - список допустимых в шаблоне regexp символов можно найти в интернете
я обычно по регулярным выражениям здесь смотрю: http://javascript.ru/regexp