Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
извлечение данных из файлов формата Word / Excel / txt / PDF
скачивание файлов (изображений, документов, и т.п.)
обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

Запуск парсера нажатием одной кнопки на ленте Excel
Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

Множество текстовых функций для обработки полученной информации
Разнообразные фильтры и функции перекодировки
Работа с переменными и массивами данных
Разбиение значений на отдельные элементы с индивидуальной обработкой
Автоматический вывод характеристик товаров в отдельные столбцы
Интеллектуальный поиск цен на страницах
Поддержка форматов JSON и XML

Продвинутые сетевые возможности

Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
Авторизация — поддержка входа в аккаунты на различных сайтах
Региональные настройки — выбор географического региона для парсинга
HTTP-запросы — поддержка GET и POST методов, конструктор запросов
Cookies и Headers — полная работа с HTTP-заголовками и куки
Многопоточность — до 200 одновременных потоков для ускорения работы
Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

Рекурсивный поиск страниц на сайтах
Поиск данных по HTML-тегам и их атрибутам
Автоматическое обнаружение ссылок пагинации (пейджера)
Специализированные функции для работы с HTML-таблицами
Преобразование HTML в текст и пары "название-значение"
Очистка HTML от лишних данных

Интеграция с Excel

Чтение данных из файлов Excel для использования в парсинге
Создание отдельных листов и файлов
Динамическое формирование столбцов для вывода результатов
Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
Удобная панель инструментов для запуска парсинга

Работа с файлами

Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
Обработка файлов из заданных пользователем папок
Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Для загрузки надстройки Parser воспользуйтесь кнопкой Скачать программу

Если не удаётся скачать надстройку, читайте инструкцию про антивирус

Если скачали файл, но он не запускается, читайте почему не появляется панель инструментов

Это полнофункциональная пробная (TRIAL) версия, у вас есть 10 дней,
в течение которых вы можете протестировать работу программы.

Этого вполне достаточно, чтобы всё настроить и проверить, используя раздел Справка по программе

Если вам понравится, как работает программа, вы можете Купить лицензию

Лицензия (для постоянного использования) стоит 4000 рублей.

В эту стоимость входит активация на 2 компьютера (вы сможете пользоваться программой и на работе, и дома).
Если нужны будут дополнительные активации, их можно будет в любой момент приобрести по 800 рублей за каждый дополнительный компьютер.

Добавить комментарий
909798 просмотров

Спасибо огромное, с этим разобрался.
Подскажите пожалуйста как еще пользоватся диалоговым окном выбора переменных, например после запуска парсера я помещаю в переменную ссылки производителей и их название и в это окно я хочу выводить и выбирать в нем производителя для подстановки в парсер ссылки на него для дальнейшего парсинга только определенного производителя а не всех?

Игорь (администратор сайта), 22 Фев 2017 - 01:33.#5

Александр, это сложный сайт, тут страницы перелистываются скриптами, и механизм настройки отличается от стандартного.
Сначала, надо загрузить страницу по ссылке, и получить ID категории, чтобы сформировать ссылку вида
https://belbazar24.by/ajax.php?action=get_poducts&cat_id=180

По этой ссылке сервером выдается ответ, где присутствует информация о товарах и количестве страниц в формате JSON
Дальше - сложнее, если сами не разберетесь, можем настроить под заказ.

Пример списка действий, как от исходный ссылке добраться до страниц результатов:

Действие	Параметр	Значение
Загрузить ИСХОДНЫЙ КОД веб-страницы	URL
	Кодировка веб-страницы
	Загружать все страницы результатов
	Выполнять после каждой загрузки

HTML: Поиск тегов	Тип элемента	input
	Название проверяемого атрибута	id
	Значение проверяемого атрибута	cat_id
	Тип результата / извлекаемый атрибут	value 1

Добавить текст ДО или ПОСЛЕ	Префикс	https://belbazar24.by/ajax.php?action=get_poducts&cat_id=
Добавить текст ДО или ПОСЛЕ	Суффикс

Загрузить ИСХОДНЫЙ КОД веб-страницы	URL
	Кодировка веб-страницы
	Загружать все страницы результатов
	Выполнять после каждой загрузки

Декодирование JSON

Александр, 21 Фев 2017 - 13:40.#6

Здравствуйте, делаю настройку парсера вот на эту страничку https://belbazar24.by/catalog/elady/ однако при загрузке кода страницы в парсере - каталог товаров и соответсвенно пейджер - загружается пустой, подскажите как правильно прогрузить полностью страничку с этого сайта?
Заранее благодарен.

Игорь (администратор сайта), 20 Фев 2017 - 00:01.#7

Константин, добавьте мою программу (или расширение .xla) в список исключений аваста
Или установите более умный антивирус, типа бесплатного Касперского.
Любой парсер распознаётся антивирусами как вирус (ибо парсер предназначен для скачивания данных и файлов из интернета)
http://excelvba.ru/faq/virus

Константин, 19 Фев 2017 - 23:56.#8

Добрый день! я скачал файл Parser.xla аваст выдал сообщение о том, что он заражен вирусом MO97:Dropper-AJ

Игорь (администратор сайта), 19 Фев 2017 - 23:01.#9

С яндексом (некоторыми сервисами) получится работать только через браузер Internet Explorer
(потому что там скрипты какие-то хитрые, - лично я не понял, как данные вытаскивать из сервисов типа wordstat, если без браузера)
Используйте действие «Открыть страницу в Internet Explorer»

Гость, 19 Фев 2017 - 22:52.#10

Есть ли решения обхода яндекс защиты?

Гость, 19 Фев 2017 - 22:51.#11

Парсер не работает с личными кабинетами в яндекс,например из своего аккаунта в яндекс директе нельзя вытащить нужную информацию,защита яндекса от парсеров

Гость, 12 Фев 2017 - 19:59.#12

Добрый день. А может есть какой-нибудь пример парсера, с авторизацией на сайте.

Игорь (администратор сайта), 12 Фев 2017 - 14:50.#13

Видеоурока по Captcha и авторизации пока нет.
Как вариант, - авторизуетесь вручную в браузере Internet Explorer, вводите там капчу,
а парсер потом использует IE для загрузки страниц сайта

Гость, 12 Фев 2017 - 09:51.#14

Добрый день. а как быть если на сайте необходима авторизация, да еще а капчу ввести требуется. Есть ли видеоурок?

Игорь (администратор сайта), 11 Фев 2017 - 15:44.#15

В общем случае, - несильно (если не использовать многопоточную загрузку)
Для сервера, 1-10 запросов в секунду (именно столько идет от парсера, в большисетве случаев) — это мелочи (проблемы начинаются при сотнях и более запросов в секунду, и то только на слабых сайтах)

Гость, 11 Фев 2017 - 14:59.#16

Добрый день.
Подскажите пожалуйста, насколько сильно программа "нагружает" сайт, который парсит.

Игорь (администратор сайта), 10 Фев 2017 - 22:28.#17

Евгений, настройка под сайты не входит в техподдержку
На примерах настроенных парсеров видно, что всё работает как надо.
Напишите в скайп, попробую помочь.

Евгений, 10 Фев 2017 - 21:54.#18

Оплатить могу, но на данный момент я даже не знаю как она работает в реале , я 1 сайт не могу настроить, а у меня их несколько, вы что по каждому сайту со мной будете ходить. Все таки для начала хочется, чтобы программа на пробном периоде показала себя с лучшей стороны, а пока по итогу мы имеем программу, но настроить получилось только для 340 позиций товара,вместо 2500. Предлагаю пока с вашими силами настроить программу на корректную работу для 1 сайта, хоть и на пробном периоде, а далее уже говорить о деньгах, спасибо за понимание, жду вашего ответа Игорь.

Игорь (администратор сайта), 10 Фев 2017 - 21:31.#19

Евгений, если готовы оплатить лицензию на программу, - пишите в скайп, помогу с настройкой.

Евгений, 10 Фев 2017 - 21:24.#20

Игорь не получается ,перепроверил,делаю все по видео, категории 19 шт в моем случае он нашел,а по страницам не ходит все равно! Как быть?!

Игорь (администратор сайта), 10 Фев 2017 - 15:22.#21

С этим - не ко мне, это к Касперскому вопросы.
Мои надстройки (все) вносят изменения в какие-либо файлы Excel (именно для этого они и предназначены), а что там антивирус думает, я не в курсе.

Иван, 10 Фев 2017 - 15:20.#22

Когда Parser.xla делает какие то действия с файлом prices (4).xls "Защита от шифрования" думает что Parser.xla пытается его зашифровать. Поэтому и выдает данное сообщение.

Игорь (администратор сайта), 10 Фев 2017 - 14:34.#23

Иван, касперский же вам пишет, на какой файл сработка, - prices (4).xls
А моя программа имеет другое имя файла, и расширение xla
Так что, с этим не ко мне.
Если в этом файле (prices (4).xls) у вас вирус, - то он может запускаться вместе с Excel, как и моя программа
Можете отключить мою программу из автозапуска, и проверить

Иван, 10 Фев 2017 - 14:28.#24

Здравствуйте. Используем Вашу программу. В "Kaspersky Security 10 для Windows Server 10.0.0.486" есть "Защита от шифрования". В момент запуска Вашей программы она срабатывает.

Обнаружен объект: HEUR:Generic.Unknown.Cryptor.
Имя объекта: D:\UsersDesktops\?????????\Рабочий стол\prices (4).xls

Евгений, 10 Фев 2017 - 14:17.#25

Сейчас заново все перепроверю, возможно где то допустил ошибку.

Евгений, 10 Фев 2017 - 14:16.#26

Начат поиск пейджера, длина HTML кода: 58582
Применён HTML фильтр class=pagination
(длина HTML после фильтрации: 0)
Ошибка поиска пейджера - после фильтрации получено пустое значение.

Сделал все как написали, вот такая Ошибка!

Игорь (администратор сайта), 10 Фев 2017 - 13:33.#27

В действии «HTML: Получить все ссылки пейджера» укажите следующие параметры:

HTML фильтры	class=pagination
Префикс пейджера	start=

Результатом будет массив из 10 ссылок

Евгений, 10 Фев 2017 - 12:47.#28

Без проблем ,вот ссылка http://toys.ost-com.ru/products/74178/ ,на странице 20 товаров, не могу указать чтобы он получил все ссылки на остальные страницы и выгрузил весь товар, а то он по 20 шт выгружает в XML и переходит в след категорию ,а по страницам в каждой категории не ходит, только на 1-вой страницы!

Игорь (администратор сайта), 10 Фев 2017 - 12:27.#29

Евгений, а что конкретно не получается? ссылки пейджера не находятся?
Надо реальную ссылку показывать (на страницу, с которой надо взять все ссылки пейджера), иначе помочь не смогу

Евгений, 10 Фев 2017 - 12:17.#30

День добрый.
Вопрос такой, добавляю действие "получить все ссылки пейджера" вместо "Offset" у меня надпись "?Start=" вставляю ее чтобы проспарсить все ссылки, а ничего не происходит, как решить данную проблему.
Пример:
http://primer-com.ru/products/74169?start=12
http://primer-com.ru/products/74170?start=12
(ссылки не рабочие, для примера)

Скачать надстройку

Parser.xla

версия 4.6.7 от 01.12.2025

история версий программы

Купить лицензию

Посмотреть стоимость

Количество компьютеров	Стоимость лицензии
1 компьютер	4000 руб.
2 компьютера	4000 руб.
3 компьютера	4800 руб.
4 компьютера	5600 руб.
5 компьютеров	6400 руб.
6 компьютеров	7200 руб.
7 компьютеров	8000 руб.
8 компьютеров	8800 руб.
9 компьютеров	9600 руб.
10 компьютеров	10400 руб.
12 компьютеров	12000 руб.
14 компьютеров	13600 руб.
16 компьютеров	15200 руб.
18 компьютеров	16800 руб.
20 компьютеров	18400 руб.

При покупке от юр.лица (по договору, оплата по безналу) — другие цены

Справка по программе