Статья является примером использования программы «Парсер сайтов и файлов» для сбора данных с веб-страниц

Инструкция по добавлению файла настроек в программу

Парсер сайта optomoll.ru - оптовый интернет-магазин (одежда, обувь, электроника, спорттовары и т.д.)

Задача: 

Собрать информацию об ассортименте товаров в заданном разделе, вывести название, артикул товара, цену, наличие, ссылку на картинку, раздел и подраздел, а также все характеристики товаров, полный перечень которых нам заранее неизвестен.

ВложениеРазмерЗагрузкиПоследняя загрузка
Настройки парсера для сбора информации с сайта optomoll.ru11.04 КБ22510 недель 2 дня назад
Образец выгрузки парсером данных с сайта optomoll.ru в формате Эксель34.96 КБ0Ещё не загружался
Описание: 

Тестовая настройка собирает информацию с сайта optomoll.ru о товарах в первых 3 подразделах блока "Женщинам". Из каждого подраздела берется по 60 товаров. Информация собирается без захода на страницу товара, за счет чего достигается высокая скорость работы парсера.

В данной настройке применена возможность парсера автоматически формировать столбцы выгрузки для характеристик товара.

В настройке фиксированными являются только следующие столбцы:

название товара
артикул (берется из названия)
ссылка на страницу товара (гиперссылка)
Цена за шт.
Ссылка_изображения
Размеры
Главный раздел
Подраздел
Наличие (определяется по активной/неактивной кнопке "В корзину")

Все остальные столбцы формируются парсером динамически. В образце выгрузки это столбцы:

Размеры одежды
Цвет
Сезон
Телосложение модели
Состав
Дата добавления
Производитель
Размеры обуви

При парсинге других разделов список "динамических" столбцов будет другой.

Некоторые динамически столбцы дублируют основные. В данном примере это Размеры одежды и Размеры обуви, при желании их можно убрать.

Подобный принцип настройки парсера может быть применен к любым сайтам, где характеристики перечисляются в одном и том же формате - название и значение.

Комментарии

Татьяна, напишите мне в скайп, - в комментах на сайте HTML теги не отображаются, потому, ваш вопрос непонятен

Подскажите, пожалуйста, какой может быть алгоритм, если вместо
div class="propertyTable"
div class="propertyName" "Состав"
div class="propertyValue" Полиэстер 100%, где описанный вами алгоритм работает

мы имеем,
div class="propertyTable"
Состав
Полиэстер 100%
Уже всю голову сломала, очень прошу помогите…

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
          ___   __   __  _       _____      _    
___ / _ \ \ \ / / | |__ | ____| / \
/ __| | | | | \ V / | '_ \ | _| / _ \
| (__ | |_| | | | | | | | | |___ / ___ \
\___| \__\_\ |_| |_| |_| |_____| /_/ \_\
Введите код, изображенный в стиле ASCII-арт.