Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

  • парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
  • извлечение данных из файлов формата Word / Excel / txt / PDF
  • скачивание файлов (изображений, документов, и т.п.)
  • обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

  • Запуск парсера нажатием одной кнопки на ленте Excel
  • Для настройки парсеров не нужно знание программирования!
    Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
  • Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
  • Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
    Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
  • Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

  • Множество текстовых функций для обработки полученной информации
  • Разнообразные фильтры и функции перекодировки
  • Работа с переменными и массивами данных
  • Разбиение значений на отдельные элементы с индивидуальной обработкой
  • Автоматический вывод характеристик товаров в отдельные столбцы
  • Интеллектуальный поиск цен на страницах
  • Поддержка форматов JSON и XML

Продвинутые сетевые возможности

  • Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
  • Авторизация — поддержка входа в аккаунты на различных сайтах
  • Региональные настройки — выбор географического региона для парсинга
  • HTTP-запросы — поддержка GET и POST методов, конструктор запросов
  • Cookies и Headers — полная работа с HTTP-заголовками и куки
  • Многопоточность — до 200 одновременных потоков для ускорения работы
  • Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
  • Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
  • Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

  • Рекурсивный поиск страниц на сайтах
  • Поиск данных по HTML-тегам и их атрибутам
  • Автоматическое обнаружение ссылок пагинации (пейджера)
  • Специализированные функции для работы с HTML-таблицами
  • Преобразование HTML в текст и пары "название-значение"
  • Очистка HTML от лишних данных

Интеграция с Excel

  • Чтение данных из файлов Excel для использования в парсинге
  • Создание отдельных листов и файлов
  • Динамическое формирование столбцов для вывода результатов
  • Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
  • Удобная панель инструментов для запуска парсинга

Работа с файлами

  • Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
  • Обработка файлов из заданных пользователем папок
  • Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Видеоинструкция
YouTube
VK Video
RuTube

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Комментарии

27 октября 2015 г. в 01:59 стало доступно обновление программы «Parser» (версия 1.2.3).

Изменения в новой версии программы:

+ реализованы быстрые (текстовые) аналоги функций для поиска и удаления тегов, и конвертации HTML в текст
- исправлены ошибки в функции «проверка на выполнение условия»
+ добавлены новые возможности для упрощения тестирования настроек

Рекомендуем обновить программу до последней версии!

Александр, не видя настроек парсера, и не зная задачи, - ничего не могу сказать.
Чтобы я смог помочь, от вас надо: http://ExcelVBA.ru/help

Здравствуйте, а скажите пожалуйста как выводить результат поиска не в столбцы а в строки. Т.е. есть много значений и они записываются в B,C,D а надо в B2 B3 B4.

Кирилл, да, это распространяется на все загружаемые файлы.
Такая штука крайне редко нужна, - 95% сайтов отдают файлы без проверки каких-то заголовков запроса и прочего.
Но есть отдельные проблемные сайты, где надо эмулировать работу браузера (браузер передает заголовки запроса, и cookies в том числе, при скачивании файлов)

Спасибо за ответ!
Если я правильно понимаю, данное одно действие распространяется на весь список файлов для загрузки?
P.S. Не приходят уведомления на почту о факте ответа, не смотря на наличие галки о новых комментариях. В спаме проверял)

Тут не в ссылке дело.
Сервер, перед тем как отдать файл, проверяет заголовки запроса (возможно, требуя авторизацию)

Если там без авторизации сайт - то все несложно настроить:
1) добавляем набор действий Parser_Start, а в нём - одно действие из раздела HTTP «Загрузить страницу с приемом cookies»
В качестве параметра действия (URL) указываете адрес главной страницы сайта
2) в настройках скачивания файла ставим галочку «требуется авторизация»

Если этого недостаточно, - то в Parser_Start надо прописать еще несколько действий «Добавить заголовок запроса» (из раздела HTTP)
Скопировав из браузера заголовки запроса (типа Host: адреса вашего сайта, Origin: адрес страницы, с которой запрошен CSV, и т.д.)
И поставить у этих действий параметр Использовать для всех запросов = ДА

Здравствуйте!
Подскажите пожалуйста, файл вида catalog_19102015.csv не скачивается со стороннего сайта. МОжно ли посмотреть на что парсер жалуется? Логи etc. Мне кажется что ему не нравится подчеркивание, если да - можно ли как то обойти это ограничение? (по ссылке браузер качает файл без проблем).
Спасибо за очень хорошую программу!

Здравствуйте, Роман.
Да, можно и авторизацию настроить
В настройках, вкладка ДОПОЛНИТЕЛЬНО - НАБОРЫ ДЕЙСТВИЙ
Создаете там набор действий с названием Parser_Start (чтобы он выполнялся автоматически при запуске парсера),
и там настраиваете авторизацию.

Пример настройки авторизации (для вашего сайта не подойдет - просто чтобы принцип понять) можно поглядеть здесь:
http://excelvba.ru/programmes/Parser/manuals/Authentication

Здравствуйте, подскажите пожалуйста, я настроил парсер, по примеру
"Парсер сайта gulliver.ru — загрузка данных по ссылкам"
все получилось, парсит все что мне нужно, кроме цены товара. Цена товара доступна только если ввести логин-пароль на сайте.

Вопрос, возможно ли настроить в программе, перед загрузкой страницы товара, входить под логин-паролем?

Алексей, да, всё работает.

Подскажите Парсер сайтов работает на Office 2016?

Евгений, функция в том виде, в котором вы просите, в программе вряд ли будет.
Потому что тут много нюансов:
- непонятно, что делать, если за день несколько раз парсер обновил цены, - в примечание несколько цен добавлять за одну дату?
- примечание через несколько дней переполнится инфой - она не будет влазить в примечание (придется увеличивать размеры примечания, чтобы посмотреть цены)

Предложенный мной способ (со сводной таблицей) позволяет ОДНИМ КЛИКОМ посмотреть динамику цены по конкретному товару.
Щелкните на картинке, - поглядите, как выглядит мой вариант:

Архив (сводный тоже делаю)
Предложенный способ дает возможность быстро посмотреть динамику цен конкурентов на определенный товар. т.е сделал фильтр на группу товара прогнал парсер посмотрел изменения, другую группу прогнал на следующий день.

В программе есть возможность заполнять примечания к ячейкам, но не добавлять, а полностью заменять примечания.
Вообще, для этой задачи я обычно делаю отдельный простенький макрос, который по нажатию кнопки добавляет все цены на отдельный лист АРХИВ (где располагается таблица из 4 столбцов: дата, товар, сайт, цена)
Потом по листу архив можно в несколько нажатий построить сводную таблицу, и отслеживать изменения цен в разрезе товаров или сайтов.
А если в примечания добавлять, - это потом вручную только просматривать ячейки по-отдельности...

Добрый вечер.
Думаю будет полезна функция "статистики" в примечании. Например проверил цену 01.10 в примечании 01.10 2050 руб. Проверял 5 дней подряд в примечании
01.10 2050руб
02.10 2025руб
03.10 1900руб
04.10 2100руб
05.10 н/д

ник в скайпе: ExcelVBA.ru

Напишите, пожалуйста,как найти Вас в скайпе.

Елена, напишите мне в Скайп, — я подскажу, что как сделать.
Не совсем понятна задача, — но, с вероятностью 99%, можно получить результат в нужном вам виде.

Здравствуйте! Попробовала загрузить демо-версию. Но она не дает возможность поэтапно сделать выгрузку, попробовать программу от начала и до конца. Мне необходимо будет с помощью программы привести каталог к такому виду в эксель, это возможно с помощью данной программы и возможно ли как-то проверить перед покупкой? :

Название Цена Орг% Тип товара Размер Кртинка Описание
Бриджи Артикул:6-1549 336 15 Бриджи 104,116,140, http://alena-opt.ru/uploads/image/file/3744/6-1549__1_.jpg`http://alena-opt.ru/uploads/image/file/3745/6-1549__2_.jpg`http://alena-opt.ru/uploads/image/file/3746/6-1549__3_.jpg`http://alena-opt.ru/uploads/image/file/3747/6-1549.jpg Материал:Кулирка (100% Х/Б) Предмет:Бриджи Сезоннность:Осень-Зима, Весна-Лето Пол:Девочкам

Марк, можно грузить всё что угодно, что представлено на сайте в текстовом виде (кроме flash-контента и подобного)
Вопрос только в сложности настройки парсера.

Ммм, извините, я ошибся, проблема была в том что в информация частично была в и эти ячейки оставались абсолютно пустыми. Предварительное удаление по классу помогло.
Но все равно интересно можно ли грузить динамически изменяемый контент)

Спасибо, решил проблему.
и еще вопрос, можно ли парсить данные которые подставляются в таблицу динамически?)

почему не работает - написано здесь
причина проста - Microsoft Excel для линукса не существует

php скрипт - наверняка есть. только не на этом сайте (здесь публикуются решения только для Excel)

Здравствуйте у меня линукс , ваша программа почему то не работает
установка микрософт офис не рассматривается.

есть ли нормальный скрипт на PHP?
Я написал скрипт собравший веб ссылки на нужные мне страницы.

Нужно всего лишь пройтись по уже сделанному списку страниц
и сохранить с каждой из них одно единственное поле. больше ничего
но я слегка подзабыл уже что как правильно делать потому спрашиваю вас.
Т.е. проблема лишь со вторым шагом парсинга.

Здравствуйте, Марк.
Да, конечно можно, - надо просто сформировать правильное имя файла, удалив все ненужные и запрещенные символы
Имя файла можно задать любое.

Спасибо, крутая надстройка)
Можно как либо загружать картинки, если имя файла начинается с пробела и пр. запрещёных символов?)

Здравствуйте!
Супер программа!
Не могу понять, как парсить сайты в которых часть каталогов содержит переходы на 2,3 ... страницы.
А часть состоят из одной страницы

Здравствуйте, Евгений
Надо нажать ПУСК - ВЫПОЛНИТЬ,
и ввести так команду типа
netsh winhttp set proxy 127.0.0.1:8888
где вместо 127.0.0.1:8888 пишете IP и порт вашего прокси сервера

Добрый день!
Подскажите пожалуйста, на работе выход в интернет через прокси. Подскажите как получить цены, в данном случаи.

Здравствуйте. Скачал программу в таком виде Parser_v1199.xla. Она почему-то не грузится. Подскажите, что не так. Спасибо