Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2000 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (3300 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Александр, а настройках этого столбца в парсере, на вкладке Формат, есть галочка «Перенос текста»
Включите её, и проблема будет решена

Игорь здравствуйте, подскажите получил значения в парсере в виде четырех наборов цифр, разделенных переносами. При выводе в Excel отображается в ячейке в оду строку без переносов, хотя при просмотре в строке формул они разделены переносами http://prnt.sc/my1tq8. Если встать на эту ячейку и щелкнуть в строке формул а потом Enter, в ячейке значения выстраиваются с учетом переносов, но таких строи и значений в моем проекте очень много. Подскажите как перенести такие данные с переносами.

Игорь, так ведь парсер и так в коде страницы ищет? Или вы что-то другое имеете ввиду..
То есть я выгружаю исходный код. И пытаюсь найти там штуку, которая в коде страницы выглядит вот так "...id="js-average-rating">9.15/10<...".
Пытаюсь вытащить 9.15/10, но в парсере выводит "...id="js-average-rating">N/A<...".
Потому что он мне выгружает код страницы изначальный, без выполненного действия по нажатию на всплывающую вкладку и, соответственно, отработавшего скрипта.
С помощью IE, я так понял, это может работать, если осуществить действие щелчка по элементу, т.е. открытие этой вкладки?

Виктор, тут 2 варианта:
1) найти эти данные (которые потом использует скрипт) в коде страницы (например, она в javascript переменной могут быть)
2) загружать страницу с использованием браузера Internet Explorer, - тогда скрипты отработают


По копипасту, - всё везде работает (если параметр действия подразумевает ввод пользователем данных)
Т.е., если можно ввести вручную что-то, то можно и вставить через Ctrl + V

Игорь, добрый день!
Подскажите, пожалуйста. Парсил 3 значения со стандартного формата странички. Недавно интерфейс на сайте поменяли и вывели 1 из 3 значений на всплывающую вкладку. Парсер теперь оттуда забирает только N/A или 0, потому что цифровое значение там появляется с выполнением jскрипта. Каким образом теперь можно вытащить нужное значение с помощью парсера?

Скажите, как в программе работает копипаст? Имею ввиду, что при настройке некоторые данные приходится вбивать руками. Функция копировать-вставить как будто недоступна.

Александр, я не консультирую по вопросам настройки программы под сайты.
Можем настроить под заказ.

Подскажите пожалуйста как на этом сайте https://www.daz3d.com/shop/ получить ссылки пейджера? И какой командой можно перейти на следующую страницу каталога?

Алексей, все ссылки на полноразмерные изображения присутствуют в html коде страницы. Надо только поискать.

Вопрос, а как быть с фенси боксами, в html он не указан, выловить через что???Каким образом? Просто в привьюхе есть фото, но она маленькая, а нужна большая из фенсибокса.
Спасибо

Всё, что есть, - в справке по программе

Есть ли какие то примеры, по настройке автозапуска?

Если автозапуск работал, - проблема явно не в программе. Что-то сбили в настройках планировщика windowd, раз перестало запускаться.

Здравствуйте!
У меня вопрос по автозапуску, он запускался какое то время нормально, но после попытки сделать его запуск на 3 раза в день, он перестал запускаться сам вообще.

Здравствуйте, Вадим.
Да, может

Ваш парсер может получать данные через API сайта? Такая возможность есть?

Михаил, это делается сцеплением двух массивов (для получения массива значений вида 26-1, 28-2 и т.п.), а потом вызовом набора действий, где будут 3-4 действия для преобразования значения вида 28-2 в массив из 2 значений 28

Код страницы заменился :)
Как из таблицы:
{table class="article__info-sizes"} {tbody} {tr} {th}26{/th} {th}27{/th} {th}28{/th} {th}29{/th} {th}30{/th} {th}31{/th} {/tr} {tr} {td}1{/td} {td}1{/td} {td}2{/td} {td}2{/td} {td}1{/td} {td}1{/td} {/tr} {/tbody}{/table}

Получить строку вида: 26|27|28|28|29|29|30|31.
HTML: Преобразовать таблицу в список с разделителями немного не то делает

Добрый день!
Подскажите, какие действия применить чтобы из

26
27
28
29
30
31

1
1
2
2
1
1

Получить строку вида: 26|27|28|28|29|29|30|31.
HTML: Преобразовать таблицу в список с разделителями немного не то делает

Александр, а что, парсер выводит данные в случайные ячейки?
Подробнее опишите, что куда нужно выводить

Как можно вносить данные (вывод на лист) строго в определённые ячейки?

Действие Задать новое значение в выводе в столбец.
Туда можно писать не только значение, но и формулу (в стиле R1C1), например:
=СУММ(RC5*1.2 ; МИН(RC6:RC10))

Как при помощи парсера, можно ввести формулу в определённый столбец? Интересует два варианта: 1. Формулу+данные 2. Только формулу

Станислав, если готовы приобрести программу, - напишите мне в скайп, подскажу
(тут проще на вашем примере показывать)

Сам кусок кода не отправился сразу «textarea class="messenger-reply-input" type="text" placeholder="Написать сообщение" rows="1" maxlength="1000" style="height: 32px;">

Подключился к запущенному IE.
Пытаюсь заменить "%%%%%%" через "Найти элемент в Internet Explorer" в данном куске кода
%%%%%%
Не совсем понятно как найти данный элемент через параметр "Режим Поиска". Подскажите? В справке этот момент не освещен полностью. Планирую подставить нужное мне значение через SetValue и далее отправить заполненную форму на сайт через "Щелкнуть по элементу..." Ваше решение может мне помочь в решении задачи?

Ирина, запустите отдельную копию Excel через Пуск — Программы, и работайте с другими файлами сколько угодно

По некоторым поставщикам парсер собирает данные довольно долго, и очень неудобно, что на это время работа в Excel недоступна.
Может ли парсер работать в фоновом режиме? Чтобы иметь возможность одновременно работать с другими файлами Excel?

Здравствуйте, Александр
Напишите мне на почту с адреса, на который покупали программу, и прикрепите файл настроек парсера, посмотрю в чём проблема.

Здравствуйте! Настройки парсера не менял, с этими настройками парсили уже многократно. Однако сейчас получается неккоректный парсинг - обрабатывается 70-150 строк (несколько раз разное количество в этом диапазоне) и выводит ошибку "не задан URL" для шага "загрузить страницу". Останавливаю парсер, сохраняю результат, запускаю парсер с того места где начали появляться ошибки (на перезапуск и сохранение уходит меньше минуты) - парсер работает корректно первые 70-150 строк и снова выдает ошибку "не задан URL"

Ранее этим парсером проходили по несколько десятков тысяч строк. Как быть? как отследить ошибку почему возникает ошибка?

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
        __  __   _____   ___   _   _   _____ 
____ | \/ | |___ / |_ _| | \ | | |___ /
|_ / | |\/| | |_ \ | | | \| | |_ \
/ / | | | | ___) | | | | |\ | ___) |
/___| |_| |_| |____/ |___| |_| \_| |____/
Введите код, изображенный в стиле ASCII-арт.