Парсер товаров с характеристиками с сайта bladehq.com

Задача: 

Выгрузить из заданных разделов сайта bladehq.com весь перечень товаров в таблицу Excel.
Все изображения сохранить под именами вида item-code-#.jpg
Характеристики товаров из таблицы SPECIFICATIONS, вывести в отдельные столбцы.

Описание: 

Исходными данными для парсера является список номеров разделов
(если требуется загрузить ВСЕ товары с сайта, - оставляем исходное значение пустым)

Обрабатываемый сайт выводит список товаров, обращаясь с запросом к серверу searchspring.net
Аналогично поступает и парсер. Первым запросом на api.searchspring.net парсер получает первую страницу результатов (с формате JSON), после чего берет из ответа сервера значение количества страниц (PagesCount), и формирует массив ссылок вида ...&page=XX
После этого (на втором подуровне действий), каждая из таких ссылок прогружается, ответ JSON преобразуется в XML, а из XML уже, при помощи текстовых функций, выделяется массив кусков HTML-кода, и из этих HTML берутся ссылки на страницы товаров.
Когда у нас есть полный список ссылок на все товары нужного раздела, - далее всё просто.
Страница сайта прогружается, и из неё вычленяются нужные значения при помощи действия «Поиск HTML тегов»

Таблица SPECIFICATIONS путем несложных манипуляций преобразуется в массив значений вида НазваниеПараметра|ЗначениеПараметра, и далее этот массив выводится в динамически создаваемые столбцы.

Комментарии

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
                 _   ____                    _   _ 
__ __ __| | | _ \ _ _ _ _ | \ | |
\ \ /\ / / / _` | | |_) | | | | | | | | | | \| |
\ V V / | (_| | | _ < | |_| | | |_| | | |\ |
\_/\_/ \__,_| |_| \_\ \__, | \__,_| |_| \_|
|___/
Введите код, изображенный в стиле ASCII-арт.