Статья является примером использования программы «Парсер сайтов и файлов» для сбора данных с веб-страниц

Инструкция по добавлению файла настроек в программу

Парсер товаров с характеристиками с сайта bladehq.com

Задача: 

Выгрузить из заданных разделов сайта bladehq.com весь перечень товаров в таблицу Excel.
Все изображения сохранить под именами вида item-code-#.jpg
Характеристики товаров из таблицы SPECIFICATIONS, вывести в отдельные столбцы.

ВложениеРазмерЗагрузкиПоследняя загрузка
Пример результата в файле Excel: knives.xlsx26.17 КБ0Ещё не загружался
Настройки парсера сайта11.67 КБ4692 недели 4 дня назад
Описание: 

Исходными данными для парсера является список номеров разделов
(если требуется загрузить ВСЕ товары с сайта, - оставляем исходное значение пустым)

Обрабатываемый сайт выводит список товаров, обращаясь с запросом к серверу searchspring.net
Аналогично поступает и парсер. Первым запросом на api.searchspring.net парсер получает первую страницу результатов (с формате JSON), после чего берет из ответа сервера значение количества страниц (PagesCount), и формирует массив ссылок вида ...&page=XX
После этого (на втором подуровне действий), каждая из таких ссылок прогружается, ответ JSON преобразуется в XML, а из XML уже, при помощи текстовых функций, выделяется массив кусков HTML-кода, и из этих HTML берутся ссылки на страницы товаров.
Когда у нас есть полный список ссылок на все товары нужного раздела, - далее всё просто.
Страница сайта прогружается, и из неё вычленяются нужные значения при помощи действия «Поиск HTML тегов»

Таблица SPECIFICATIONS путем несложных манипуляций преобразуется в массив значений вида НазваниеПараметра|ЗначениеПараметра, и далее этот массив выводится в динамически создаваемые столбцы.

Комментарии

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _____   _  __   __      ____   __  __   _ 
|_ _| | |/ / / /_ / ___| | \/ | / |
| | | ' / | '_ \ | | _ | |\/| | | |
| | | . \ | (_) | | |_| | | | | | | |
|_| |_|\_\ \___/ \____| |_| |_| |_|
Введите код, изображенный в стиле ASCII-арт.