Статья является примером использования программы «Парсер сайтов и файлов» для сбора данных с веб-страниц

Инструкция по добавлению файла настроек в программу

Парсер сайта tinko.ru — загрузка списка новых товаров, и обновление цен

Задача: 

Сделать парсер сайта tinko.ru для создания и последующего обновления списка товаров,
а также отдельный парсер для обновления всех цен в таблице.

ВложениеРазмерЗагрузкиПоследняя загрузка
Таблица Excel, в которую выводятся данные: tinko_result.xlsx13.8 КБ0Ещё не загружался
Настройки основного парсера15.59 КБ40618 недель 3 дня назад
Настройки парсера, обновляющего цены в таблице3.94 КБ35018 недель 3 дня назад
Описание: 

Перед запуском парсера, откройте в Excel файл tinko_result.xlsx (в него будут подставляться данные)

Парсер подгружает в файл только новые (отсутствующие в списке) товары.
Поскольку при первом запуске в файле присутствует только одна строка заголовка, - в таблицу выводятся все товары с сайта.
При последующих запусках, происходит только добавление новых данных
(для каждого товара, парсер ищет в столбе 7 «G» код товара, и, если находит, отменяет вывод этого товара на лист.

При запуске, парсер загружает главную страницу сайта, берет оттуда HTML код главного меню,
ищет в нём все разделы, после чего (на втором подуровне) обрабатывает все подразделы очередного раздела сайта.
После загрузки страницы подраздела сайта (третий подуровень парсера), программа получает количество страниц результатов (некоторые подкатегории выводятся на нескольких страницах, по 50 товаров на одной странице)
Результатом работы третьего подуровня парсера является список ссылок на страницы подкатегории (вида ...&p=1, ...&p=2, и т.д.)

На четвертом подуровне парсера, прогружается очередная страница результатов, и парсер берет с неё 50 ссылок на страницы товаров
(ссылки вида .../p-001004.html, где 001004 - уникальный артикул товара)
На пятый подуровень передаются все найденные 50 ссылок по-одной, — из каждой ссылки выделяется числовой код товара,
и парсер ищет этот код в столбце 7 «G».
Если код найден на листе (строка этого товара уже присутствует на листе), - производится выход с отменой вывода на лист;
если же код не найден (новый товар) — ссылка передаётся в обработку (в вывод на лист)

Комментарии

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _   ___   _               _____   ____  
| | |_ _| | | _ __ ___ |___ | | __ )
| | | | | | | '_ ` _ \ / / | _ \
| | | | | | | | | | | | / / | |_) |
|_| |___| |_| |_| |_| |_| /_/ |____/
Введите код, изображенный в стиле ASCII-арт.