Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

  • парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
  • извлечение данных из файлов формата Word / Excel / txt / PDF
  • скачивание файлов (изображений, документов, и т.п.)
  • обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

  • Запуск парсера нажатием одной кнопки на ленте Excel
  • Для настройки парсеров не нужно знание программирования!
    Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
  • Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
  • Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
    Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
  • Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

  • Множество текстовых функций для обработки полученной информации
  • Разнообразные фильтры и функции перекодировки
  • Работа с переменными и массивами данных
  • Разбиение значений на отдельные элементы с индивидуальной обработкой
  • Автоматический вывод характеристик товаров в отдельные столбцы
  • Интеллектуальный поиск цен на страницах
  • Поддержка форматов JSON и XML

Продвинутые сетевые возможности

  • Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
  • Авторизация — поддержка входа в аккаунты на различных сайтах
  • Региональные настройки — выбор географического региона для парсинга
  • HTTP-запросы — поддержка GET и POST методов, конструктор запросов
  • Cookies и Headers — полная работа с HTTP-заголовками и куки
  • Многопоточность — до 200 одновременных потоков для ускорения работы
  • Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
  • Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
  • Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

  • Рекурсивный поиск страниц на сайтах
  • Поиск данных по HTML-тегам и их атрибутам
  • Автоматическое обнаружение ссылок пагинации (пейджера)
  • Специализированные функции для работы с HTML-таблицами
  • Преобразование HTML в текст и пары "название-значение"
  • Очистка HTML от лишних данных

Интеграция с Excel

  • Чтение данных из файлов Excel для использования в парсинге
  • Создание отдельных листов и файлов
  • Динамическое формирование столбцов для вывода результатов
  • Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
  • Удобная панель инструментов для запуска парсинга

Работа с файлами

  • Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
  • Обработка файлов из заданных пользователем папок
  • Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Видеоинструкция
YouTube
VK Video
RuTube

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Комментарии

Да, это возможно

Здравствуйте!!! Подскажите возможно ли что б программа искала данные в заданном столбце и в соседний столбик подставляла данные которые будут парситься. Что меня интересует. Есть столбец с 1000 артикулами пример арт. 123456, я хочу на сайте который меня интересует скачать все артикулы и цены по заданному производителю привести артикул к исходному виду т.е. 123456 (А то может быть арт. 123-456, 123 456, 123.456 и тд.) И потом мне нужно что б программа в 1 столбце нашла этот артикул и подставила рядом данные которые я буду парсить, а то что не находит оставить пустым.

Здравствуйте, Станислав
Парсер загружает страницы 2 способами: либо напрямую (без браузера), либо через браузер Internet Explorer (если нужно, чтобы на странице выполнились скрипты)
Напишите мне в скайп, — объясните проблему, я постараюсь помочь.

Добрый день, такая проблема. когда открываю ссылку в хроме, ссылка открывается корректно. Если открыть в эксплорер пишет предмет не найдет. Вопрос, как сделать чтобы вашь парсер ссылался на хром а не на эксплорер?

Добрый день! все делал точно по Вашей инструкции, но у меня не загружаются страницы с пейджера, товары берутся только с первой страницы. А при тестировании уровня где получаем ссылки на пейджер выходит такое сообщение "Начат поиск пейджера, длина HTML кода: 249973"

Можно запустить несколько парсеров, в нескольких экземплярах Excel (работающих независимо друг от друга)
Напишите в скайп, подскажу, что как сделать

Здравствуйте. Подскажите как запустить 2-3 парсера одновременно и чтоб 2-3 й парсер начинал вставлять данные со строки которую я укажу.

Татьяна, в этом случае картинки чуть иначе ищутся, - ссылки на них есть в коде страницы, но в другом месте
(что вы видите в браузере, это уже после работы скриптов, который проставляет ссылки на картинки в нужные места HTML кода)

Если готовы приобрести программу, - звоните в скайп, помогу с настройкой извлечения картинок.

Здравствуйте! Подскажите, пожалуйста, в чем причина: пытаюсь выловить ссылку на изображение, но когда делаю поиск по тегам она скрывается, остается лишь srs ""

Исходный код:

Нет. Работает только в Excel под Windows

На OpenOffice 4 будет работать?

Спасибо

Алексей, по вопросам техподдержки обращайтесь напрямую в скайп
По вашему вопросу, - когда парсер запустится, все будет нормально
Базовый URL не прописался, так как вы в текущем сеансе настройки парсера не прогрузили ни одну страницу, - парсер не знает, какой URL у сайта
Если вы хоть раз выполните действие типа «Загрузить исходный код веб-страницы», то парсер запомнит URL сайта, и подставит префикс к ссылке.

Настраивал парсер и не смог вытянуть правильно url картинки:

- сделал поиск тегов http://screencast.com/t/48wQTwPw
- если выбрать значение "href_with_prefix" - не добавляет название сайта в ссылку http://screencast.com/t/tvRJQQvMuP

Как быть в этом случае, как получить полноценную ссылку?

Евгений, сейчас нет возможности для отката.
А зачем это вообще? Если что-то перестало работать, — напишите мне в скайп или на почту, исправлю.

Добрый день!
До версии 2.0.0 можно было откатить программу на более позднюю версию. Сейчас есть такая возможность?

Здравствуйте, Рустем.
Если на остальных компьютерах всё нормально работает, - значит, проблема не в моей программе.
Я с таким раньше не сталкивался, но, судя по всему, что-то в системе криво установлено (раз запуск IE приводит к перезагрузке компа)
Убедитесь, что используется последняя версия программы-парсера.
Отключите все надстройки / плагины / расширения для Internet Explorer.
Если проблема не решится, — переустановка Windows поможет точно.

На одном из компьютеров после запуска парсера, который работает с Internet Explorer, происходит перезагрузка компьютера. Подскажите в чем может быть дело?

Настроить - вкладка Вывод на лист - подвкладка Настройки листа для вывода - опция «Столбец, по которому определяется последняя строка таблицы»
Поменяйте столбец на тот, в который точно данные выводятся (видимо, у вас первый столбец пустым остается, потому, каждая новая строка затирает предыдущую)

Доброго вечера! Не думал что настолько тупой))) Помогите если не сложно . Настроил все точно по Вашей инструкции , но при запуске парсинга в лист EXEL добавляется только одна строка , как это исправить, все настройки перековырял , но ничего не нашел. Подскажите люди добрые где я ступил. Спасибо огромное за внимание.

Ответ есть в FAQ
Работает только под Windows (на маке - под Parallels)

Будет работать на маке в офис 365?

Да. Работает в любой версии Excel (начиная с 2003) под Windows XP - 10

Будет ли работать работает под MS Office 2016 / Windows 10?

Здравствуйте, Денис
Может, что-нибудь не так у вас настроено, либо сайт тормозит
Обновления программы не влияют на скорость загрузки (в обновлениях, в основном, новый функционал, и исправление ошибок)
Если сами не найдете причину проблемы, — позвоните в скайп, помогу

Есть ощущение, что после обновления программа стала катастрофически медленнее работать. например adidas.ru - 500 страниц с товарами занимает больше часа.
Интернет не изменился, задержек по обращению к страницам нет.
Странно это как-то.
Я один такой?

Здравствуйте, Алексей
Расписывать тут сложно (планирую сделать видеоинструкцию), — сайты разные все
Для большинства сайтов (80%), авторизация выполняется одним действием «Авторизация (POST запрос)» в наборе действий Parser_Start
Указываем 2-3 параметра - и все работает.
Если готовы приобрести программу, - звоните в скайп, покажу, как настраивается, на примере нужного вам сайта

Можно по подробнее расписать информацию по настройке парсера с авторизацией на сайте.

Александр, эта проблема проявляется только в Office 365
В заголовке статьи красными буквами написано ВАЖНАЯ ИНФОРМАЦИЯ, — нажмите, и прочитайте последний абзац
(там сказано, как решить проблему, откатив Office 365 к сентябрьской версии)

Здравствуйте использую макросы на офисе 2016 проблема с парсером там где значения увиличиваеться переключателями. Их попросту нету и невозможно увеличить значения, так же проблема с активными зонами чтобы в них попасть нужно тыкать выше чем они. Помогите решить проблему.