Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
извлечение данных из файлов формата Word / Excel / txt / PDF
скачивание файлов (изображений, документов, и т.п.)
обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

Запуск парсера нажатием одной кнопки на ленте Excel
Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

Множество текстовых функций для обработки полученной информации
Разнообразные фильтры и функции перекодировки
Работа с переменными и массивами данных
Разбиение значений на отдельные элементы с индивидуальной обработкой
Автоматический вывод характеристик товаров в отдельные столбцы
Интеллектуальный поиск цен на страницах
Поддержка форматов JSON и XML

Продвинутые сетевые возможности

Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
Авторизация — поддержка входа в аккаунты на различных сайтах
Региональные настройки — выбор географического региона для парсинга
HTTP-запросы — поддержка GET и POST методов, конструктор запросов
Cookies и Headers — полная работа с HTTP-заголовками и куки
Многопоточность — до 200 одновременных потоков для ускорения работы
Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

Рекурсивный поиск страниц на сайтах
Поиск данных по HTML-тегам и их атрибутам
Автоматическое обнаружение ссылок пагинации (пейджера)
Специализированные функции для работы с HTML-таблицами
Преобразование HTML в текст и пары "название-значение"
Очистка HTML от лишних данных

Интеграция с Excel

Чтение данных из файлов Excel для использования в парсинге
Создание отдельных листов и файлов
Динамическое формирование столбцов для вывода результатов
Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
Удобная панель инструментов для запуска парсинга

Работа с файлами

Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
Обработка файлов из заданных пользователем папок
Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Для загрузки надстройки Parser воспользуйтесь кнопкой Скачать программу

Если не удаётся скачать надстройку, читайте инструкцию про антивирус

Если скачали файл, но он не запускается, читайте почему не появляется панель инструментов

Это полнофункциональная пробная (TRIAL) версия, у вас есть 10 дней,
в течение которых вы можете протестировать работу программы.

Этого вполне достаточно, чтобы всё настроить и проверить, используя раздел Справка по программе

Если вам понравится, как работает программа, вы можете Купить лицензию

Лицензия (для постоянного использования) стоит 4000 рублей.

В эту стоимость входит активация на 2 компьютера (вы сможете пользоваться программой и на работе, и дома).
Если нужны будут дополнительные активации, их можно будет в любой момент приобрести по 1000 рублей за каждый дополнительный компьютер.

Добавить комментарий
926453 просмотра

Для разных капч - разный алгоритм
вы не написали ссылку на сайт — потому, посмотреть я не могу — соответственно, подсказать тоже не получится
PS: возможно, кеширование забыли отключить в настройках на вкладке Дополнительно

Гость, 5 Май 2018 - 20:31.#5

Добрый день, не удается авторизоваться при работе через парсер.
На нужном сайте стоит капча на авторизацию, делаю так:
-грузим страницу
-диалог. окно ввода капчи
-сохраняем результат в переменную
-авторизуемся, подставляя введенные данные капчи
Диалоговое окно ввода капчи всегда показывает одну и ту же картинку.
Ссылка на капчу выглядит так http://****.ru/Captcha
Из браузера всегда разные картинки, из парсера - одна и та же.
Что то не так в моих действиях?

Игорь (администратор сайта), 27 Апр 2018 - 17:50.#6

Здравствуйте, Антон
1) что-то не так настроили.
Там немного исправить настройки, и всё заработает.
Если готовы оплатить программу, - напишите мне в скайп, подскажу, что как сделать
2) раньше работал, но сейчас стал проверять, - почему-то снова не работает
Исправлю в следующих версиях программы
(пока можно заменить на английские, - тогда точно заработает)

Антон, 27 Апр 2018 - 12:39.#7

Добрый день! Пытаюсь настроить парсер под свою задачу- есть XML файл примерно такого вида:

<СписокЭлементов>
<Объект>
<ТипОбъекта>Панель<ТипОбъекта>
<Наименование>Фасад<Наименование>
<Длина>184.5<Длина>
.....
(удалил здесь / из закрывающего тега, чтобы отображалось корректно)
Необходимо для некоторых тегов создавать столбцы и выводить туда массив значений по 1 значению в каждую строку.

1) С помощью запроса Xpath получилось вывести нужные данные, но парсер выводит весь массив (значения через разделитель) в одну ячейку. Как вывести каждый элемент массива в отдельную строку?
2) Работает ли поиск HTML тегов, если теги прописаны кириллицей? У меня не получилось, но как только тег пишется латиницей, то все работает нормально. Можно ли преобразовать названия тегов в латиницу, при этом значения между ними не менять?

Спасибо.

Игорь (администратор сайта), 23 Апр 2018 - 14:31.#8

Здравствуйте, Юрий. Спасибо за отзыв!
Насчет форума - были такие мысли, но пока я плохо представляю, как это все реализовать
Возможно, в будущем что-то подобное реализую

Юрий, 23 Апр 2018 - 13:27.#9

Уважаемые разработчики!

Большое спасибо за качественный продукт и адекватные цены за его настройку, т.к. некоторые моменты требуют детального изучения, если что-то хочешь сделать самостоятельно. Очень грамотно подготовлены видеоинструкции.

В качестве пожелания:
Было бы очень удобно работать с ошибками/донастройками в рамках имеющегося личного кабинета. В неё можно было бы завести заказ и формате форума или обмена сообщениями с вложениями решать возникшие проблемы. Большая просьба рассмотреть такую возможность.

Удачи вам в развитии вашего продукта!

Игорь (администратор сайта), 21 Апр 2018 - 19:34.#10

Алексей, на некоторых компах есть проблемы со скачиванием файлов по протоколу HTTPS средствами Windows (что-то в политиках безопасности не так)
В настройках загрузки, на 4-й вкладке «Авторизация», поставьте галочку «Требуется авторизация при скачивании»
Тогда загрузка файла будет выполняться другим способом, — и, скорее всего, всё заработает (если правильно формируется ссылка на скачивание и путь к сохраняемому файлу)

Алексей, 21 Апр 2018 - 16:42.#11

Доброго времени суток!
Спасибо огромное за отличную программу!
Всё получилось самостоятельно настроить, но никак не могу разобраться с загрузкой картинок :(
1) В настройках на вкладке основная информация галочка поставлена на "Выполнять загрузку файлов"
2) все остальные настройки (как в видео инструкции) выполнены по аналогии с использованием переменной imageURL
3) В результате получаем
Ошибка скачивания файла (попыток: 2)
Не удалось скачать файл по ссылке: https://t*.ua/image/cache/data/1/2018/032018/22/golf%205-600x600.jpg
Путь к создаваемому файлу: G:\*\*\Downloads\t*.ua\golf 5-600x600.jpg
Могли бы вы подсказать в чем может быть проблема?
Заранее благодарен!

Игорь (администратор сайта), 20 Апр 2018 - 03:24.#12

Здравствуйте
Одним действием тут не обойтись, нужен вызов набора действий, в котором будет 6 действий.
Если готовы приобрести программу, напишите мне в Скайп, подскажу, что как сделать

Гость, 20 Апр 2018 - 00:34.#13

Здравствуйте. Подскажите пожалуйста!!! Есть массив характеристик товара при выводе на лист.

литой рычаг
класс расхода воды Z
аэратор s-pointer eco Caché M 24 x 1
ограничение расхода воды до 8,0 л/мин
керамический картридж с ограничителем горячей воды
донный клапан G 1 1/4
гибкая подводка G 3/8
класс шума I

Как сделать так что б первая буква была заглавной? А остальные все маленькие. И нужно только что б только первая буква менялась.

Какой порядок действий должен быть?

Игорь (администратор сайта), 15 Апр 2018 - 20:25.#14

Посмотрите справку по действию ReplaceTags

Искомые теги: a
Тип замены: ReplaceOuterHTML
Шаблон замены: [=text]

Alex1010, 15 Апр 2018 - 18:08.#15

Работает, спасибо! А как сделать чтобы при удалении тега а остался текст гиперссылки

Игорь (администратор сайта), 15 Апр 2018 - 18:04.#16

Действие Поиск тегов, где первый параметр - img, а четвертый параметр - DeleteTags, удалит из html все картинки
Аналогично с гиперссылками, только там тег a

Alex1010, 15 Апр 2018 - 17:55.#17

Подскажите пожалуйста, как удалить все теги гиперссылок и изображений из текста, оставив остальные и сохранив текущее форматирование?

Антон Машкин, 12 Апр 2018 - 16:57.#18

Что такое сайт ЕИС - zakupki.gov.ru? если да, то можно с определенными ограничениями. Звоните по skype: antonmashkin, расскажу подробности.

Гость, 12 Апр 2018 - 13:39.#19

с сайта ЕИС закупки может парсить?

Игорь (администратор сайта), 11 Апр 2018 - 14:03.#20

Функционал парсера мало отличается от функционала вируса.
Так что это нормально.
Добавьте в исключения антивируса, и пользуйтесь

Иван, 11 Апр 2018 - 12:41.#21

У меня вирус какой то обнаружил в фале. Поместился в карантин.

Игорь (администратор сайта), 6 Апр 2018 - 13:45.#22

Здравствуйте.
Действие есть такое в парсере, - Количество элементов массива

Гость, 6 Апр 2018 - 12:37.#23

Добрый день!

Подскажите, пожалуйста, как подсчитать кол-во элементов в массиве и вывести это число в ячейку?

Игорь (администратор сайта), 3 Апр 2018 - 17:25.#24

Александр, вы всё правильно поняли
первым действием, ставите СОХРАНИТЬ ЗНАЧЕНИЕ В ПЕРЕМЕННУЮ с именем art

потом. когда нашли результаты поиска, если прямо в результате поиска выводится артикул, - то проверяете текст результата поиска, и только потом из него берете ссылку на товар (когда останется один результат поиска, после применения действия ПРОВЕРКА НЕ ВЫПОЛНЕНИЕ УСЛОВИЯ), либо (если искомый артикул можно увидеть только на странице товара) берете первые 10 результатов поиска, получаете ссылки на товары 910 штук), прогружаете из тут же все (без подуровня), и потом та же ПРОВЕРКА НА ВЫПОЛНЕНИЕ УСЛОВИЯ

В действии проверки, условие ставите СОДЕРЖИТ, а параметр - %art%

Александр, 3 Апр 2018 - 16:44.#25

Здравствуйте! Подскажите решение, пожалуйста:
берем значения из заданного столбца + пара действий
попадаем на результат поиска по артикулу (значению).
результат поиска это ссылки на карточки товаров
нам нужно перейти только в одну (в ту которая содержит артикул)
количество ссылок всегда разное
порядковый номер ссылки тоже всегда разный, сайт предлагает замены, аналоги и т.д.
понимаю что теоретически надо через выполнение условия, но как задать условия правильно?
или иное решение может есть - подскажите пожалуйста как быть

Роберт, 2 Апр 2018 - 17:32.#26

Отличный парсер, используем его для сбора данных от поставщика, (у нас магазин автозапчастей) очень гибкие настройки, прост в управлении, всегда актуальные обновления))

отзывчивые и профессиональные специалисты по настройке и тех поддержке парсера...
Спасибо разработчикам и всем кто развивает это продукт.
Добра вам и процветания!!

Игорь (администратор сайта), 31 Мар 2018 - 04:34.#27

Вообще-то, я ни разу не использовал больше 6-7 уровней
Если вам нужно больше 15 уровней, - наверняка, вы перемудрили с настройкой
Уровни эти, в принципе, и не нужны, - они лишь экономят память компа (подразумевается, что на выходе каждого из подуровней - несколько результатов)

Если предположить, что на каждом подуровне - всего 3 результата, - то на вывод будет подано 14 миллионов значений, - это на лист не влезет даже (надеюсь, вы не решили спарсить весь гугл или фейсбук...)

Гость, 31 Мар 2018 - 02:07.#28

Добрый!!! Подскажите возможно ли как-то увеличить количество вложенных уровней? У программы их 15.

Игорь (администратор сайта), 23 Мар 2018 - 12:38.#29

Михаил, тут можно и без подуровней, должно работать
Либо из одного набора действий вызывать другой (по сути, это аналогично подуровням)

Михаил, 23 Мар 2018 - 10:44.#30

Не работает так, я так понимаю, нужны подуровни.
Отдельным парсером все работает.
Т.е. первым делом в исходных данных «Получить названия листов», (массив)
А в подуровне 2 уже «Активировать лист в книге» и «Сохранить таблицу в формате CSV».
Хотел организовать это действиями одного прасера, т.к. в имени сохраняемого CSV есть переменная, получаемая парсером

Скачать надстройку

Parser.xla

версия 4.8.2 от 08.04.2026

история версий программы

Купить лицензию

Посмотреть стоимость

Количество компьютеров	Стоимость лицензии
1 компьютер	4000 руб.
2 компьютера	4000 руб.
3 компьютера	5000 руб.
4 компьютера	6000 руб.
5 компьютеров	7000 руб.
6 компьютеров	8000 руб.
7 компьютеров	9000 руб.
8 компьютеров	10000 руб.
9 компьютеров	11000 руб.
10 компьютеров	12000 руб.
12 компьютеров	14000 руб.
14 компьютеров	16000 руб.
16 компьютеров	18000 руб.
18 компьютеров	20000 руб.
20 компьютеров	22000 руб.

При покупке от юр.лица (по договору, оплата по безналу) — другие цены

Справка по программе