Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Добрый день!
Скачал пробную версию, при парсинге парсер заполняет только одну строчку ячеек и постоянно заменяет новым значением.
В итоге вместо списка в итоге получаем только одно последнее значение.
Подскажите, в чем может быть проблема?

Александр, не используйте кодировку gzip. В 99.9% случаев, всё работает и без неё.

Здравствуйте Игорь. При работе парсера выходит ошибка "Ошибка расшифровки GZIP: библиотека gzip.dll не установлена в системе". Файл gzip.dll находиться в папке Мои документы.

Здравствуйте, Евгений
Прокси разные бывают, - "анонимные" и "прозрачные"
Через некоторые прокси ваш IP адрес виден. Через некоторые - нет.

Игорь, добрый день!
Можете подсказать, как работают прокси в парсере, не могу понять.
Прописал в парсере прокси, выводит сообщение "Активация прокси сервера: #1", например. Но если я пытаюсь загрузить исходный код страницы нужного мне сайта, то он определяет мой IP-адрес.
Можете вкратце описать как работают прокси с действиями в парсере или выложить небольшой пример.
Заранее спасибо!

Нет, так не задумано
Видимо, на этом компе когда-то ранее эта программа запускалась,
потому, 10 дней с момента первого запуска уже прошли.
Напишите мне в скайп или на почту, решим проблему.

Ну как бы при первом запуске рассказывает, что пробный период закончился :-(
Это так задумано?

Просто удалите файл надстройки, и папку Настройки парсеров.
Предварительно, если включали опцию автозапуска, отключите её (О программе - Опции)

Подскажите, как полностью удалить эту надстройку и все что ее касается? Инструкция по удалению есть? Где посмотреть можно?

Здравствуйте, Виталий.
Всё это возможно.
По цене ничего не могу сказать, пока нет четкого задания.

Здравствуйте! Скажите, пожалуйста, получится ли реализовать следующее:
1. На сайте, который нужно спарсить, таблицы с данными подгружаются после выбора нужных значений из выпадающего списка. Мне нужно чтобы я в excel создал такие же выпадающие списки, и, при выборе нужных мне значений парсер брал данные с таблиц, значия которых, я выбрал в excel.
2. Нужно парсить данные в разные файлы, в разные вкладки. Файлы и вкладки создам сам, и нужно будет парсить в нужные мне ячейки.
Если да, постараюсь подробно расписать в задании, что я от вас хочу. Также интересует цена вопроса, сильно ли изменится от стандартной из-за заморочек всяких?

Александр, а настройках этого столбца в парсере, на вкладке Формат, есть галочка «Перенос текста»
Включите её, и проблема будет решена

Игорь здравствуйте, подскажите получил значения в парсере в виде четырех наборов цифр, разделенных переносами. При выводе в Excel отображается в ячейке в оду строку без переносов, хотя при просмотре в строке формул они разделены переносами http://prnt.sc/my1tq8. Если встать на эту ячейку и щелкнуть в строке формул а потом Enter, в ячейке значения выстраиваются с учетом переносов, но таких строи и значений в моем проекте очень много. Подскажите как перенести такие данные с переносами.

Игорь, так ведь парсер и так в коде страницы ищет? Или вы что-то другое имеете ввиду..
То есть я выгружаю исходный код. И пытаюсь найти там штуку, которая в коде страницы выглядит вот так "...id="js-average-rating">9.15/10<...".
Пытаюсь вытащить 9.15/10, но в парсере выводит "...id="js-average-rating">N/A<...".
Потому что он мне выгружает код страницы изначальный, без выполненного действия по нажатию на всплывающую вкладку и, соответственно, отработавшего скрипта.
С помощью IE, я так понял, это может работать, если осуществить действие щелчка по элементу, т.е. открытие этой вкладки?

Виктор, тут 2 варианта:
1) найти эти данные (которые потом использует скрипт) в коде страницы (например, она в javascript переменной могут быть)
2) загружать страницу с использованием браузера Internet Explorer, - тогда скрипты отработают


По копипасту, - всё везде работает (если параметр действия подразумевает ввод пользователем данных)
Т.е., если можно ввести вручную что-то, то можно и вставить через Ctrl + V

Игорь, добрый день!
Подскажите, пожалуйста. Парсил 3 значения со стандартного формата странички. Недавно интерфейс на сайте поменяли и вывели 1 из 3 значений на всплывающую вкладку. Парсер теперь оттуда забирает только N/A или 0, потому что цифровое значение там появляется с выполнением jскрипта. Каким образом теперь можно вытащить нужное значение с помощью парсера?

Скажите, как в программе работает копипаст? Имею ввиду, что при настройке некоторые данные приходится вбивать руками. Функция копировать-вставить как будто недоступна.

Александр, я не консультирую по вопросам настройки программы под сайты.
Можем настроить под заказ.

Подскажите пожалуйста как на этом сайте https://www.daz3d.com/shop/ получить ссылки пейджера? И какой командой можно перейти на следующую страницу каталога?

Алексей, все ссылки на полноразмерные изображения присутствуют в html коде страницы. Надо только поискать.

Вопрос, а как быть с фенси боксами, в html он не указан, выловить через что???Каким образом? Просто в привьюхе есть фото, но она маленькая, а нужна большая из фенсибокса.
Спасибо

Всё, что есть, - в справке по программе

Есть ли какие то примеры, по настройке автозапуска?

Если автозапуск работал, - проблема явно не в программе. Что-то сбили в настройках планировщика windowd, раз перестало запускаться.

Здравствуйте!
У меня вопрос по автозапуску, он запускался какое то время нормально, но после попытки сделать его запуск на 3 раза в день, он перестал запускаться сам вообще.

Здравствуйте, Вадим.
Да, может

Ваш парсер может получать данные через API сайта? Такая возможность есть?

Михаил, это делается сцеплением двух массивов (для получения массива значений вида 26-1, 28-2 и т.п.), а потом вызовом набора действий, где будут 3-4 действия для преобразования значения вида 28-2 в массив из 2 значений 28

Код страницы заменился :)
Как из таблицы:
{table class="article__info-sizes"} {tbody} {tr} {th}26{/th} {th}27{/th} {th}28{/th} {th}29{/th} {th}30{/th} {th}31{/th} {/tr} {tr} {td}1{/td} {td}1{/td} {td}2{/td} {td}2{/td} {td}1{/td} {td}1{/td} {/tr} {/tbody}{/table}

Получить строку вида: 26|27|28|28|29|29|30|31.
HTML: Преобразовать таблицу в список с разделителями немного не то делает

Добрый день!
Подскажите, какие действия применить чтобы из

26
27
28
29
30
31

1
1
2
2
1
1

Получить строку вида: 26|27|28|28|29|29|30|31.
HTML: Преобразовать таблицу в список с разделителями немного не то делает