Статья является примером использования программы «Парсер сайтов и файлов» для сбора данных с веб-страниц

Инструкция по добавлению файла настроек в программу

Парсер сайта ozon.ru

Задача: 

Выгрузить из заданных разделов сайта ozon.ru максимум доступной информации о товарах: наименование, цену и скидки, наличие и остатки, рейтинг и количество отзывов, описание, ссылки на изображения и характеристики товара.

ВложениеРазмерЗагрузкиПоследняя загрузка
Пример результата работы парсера ozon в файле Excel175.72 КБ0Ещё не загружался
Настройки парсера для сайта ozon.ru11.64 КБ0Ещё не загружался
Описание: 

Смотрите также аналогичные парсеры для сайтов wildberries и lamoda

 

Исходными данными для этого парсера являются ссылки на разделы (категории) сайта.
(сразу весь сайт спарсить не получится, там слишком много товаров, — потому, парсим только нужное)

Примеры исходных данных для парсера ozon:

https://www.ozon.ru/category/posuda-i-kuhonnye-prinadlezhnosti-14501/<br />
https://www.ozon.ru/category/platya-zhenskie-7502/<br />
https://www.ozon.ru/category/nehudozhestvennaya-literatura-16511/

 

Парсер выводит на лист следующие столбцы:

  • ID товара
  • Подраздел (выводится в 5 столбцов)
  • Наименование
  • Бренд
  • Цена
  • Скидка, и цена до скидки
  • Баллы по Ozon.Card
  • Рейтинг товара
  • Количество отзывов и комментариев
  • Дата первого отзыва, и кол-во дней на сайте (исходя из этой даты)
  • Ссылка на страницу товара
  • Продавец
  • Остаток товара, и сколько товара доступно (иногда эти значения немного отличаются)
  • Наличие товара (есть / нет)
  • Описание (в текстовом формате и в HTML)
  • Вес и габариты (ширина, высота, глубина)
  • Ссылка на фото (выводится в несколько столбцов)

 

Справа от этих столбцов парсер выводит характеристики товара, автоматически добавляя новые столбцы по мере обнаружения в карточках товаров новых характеристик:

  • Тип
  • Количество в упаковке, шт.
  • Назначение
  • Объем
  • Материал
  • Бренд
  • Страна
  • Комплектация
  • Упаковка
  • Артикул
  • Цвет
  • и т.д. и т.п. (количество столбцов не ограничено)

 

Парсер может скачивать изображения товара, сохраняя их в папку под именами вида артикул.jpg, артикул-2.jpg, артикул-3.jpg и т.д.
На лист также можно вывести имена сохранённых файлов.

 

ВАЖНЫЕ ПРИМЕЧАНИЯ, касательно использования этого парсера:

  1.  По умолчанию, скачивание файлов выключено.
    Галочка для включения есть на первой вкладке окна настроек («Выполнять загрузку файлов»)
     
  2. Некоторые столбцы по умолчанию не выводятся
    В настройках парсера, на вкладке Вывод на лист, можно посмотреть список столбцов, и включить / отключить нужные столбцы.
    Можно менять порядок столбцов в настройках парсера.
     
  3. На выходе (на листе Excel) может оказаться меньше товаров, чем в каталоге.
    Это связано с тем, что в каталоге сайт Озон изредка отображает товары, при щелчке на которых сайт пишет «Страница не найдена»
    (в таблице Excel для таких товаров в столбце Тип наличия стоит значение 5 - типа, товар снят с сайта)
    Но таких товаров мало (примерно 1 из 1000)
     
  4. Парсер обрабатывает категории с любым количеством товара, но не рекомендуется задавать ссылки на гигантские категории (типа категории Книги, где больше 3 млн товаров)
    Размер категории в 200-300 тыс товаров — нормально. Больше миллиона если, — то не влезет на лист.
     
  5. Парсер выводит 99-100% товаров.
    Не всегда можно вывести 100% товаров, когда в категории больше 150 тыс товаров, из которых 12 тысяч по одной и той же цене.
    В этом случае, парсер не сможет добраться до 2000 товаров, так как сайт ozon устроен таким образом, что по любому запросу / выборке можно получить максимум 10 тыс товаров.
    Если в разделе 12 тысяч товаров по одинаковой цене 100 руб (пример), то добраться до всех этих 12 тысяч товаров весьма проблематично (нужно комбинировать различные способы сортировки, и то не факт что это выдаст все товары), потому, это не реализовано.
    В большинстве случаев, у вас будут выводиться все 100% товаров из каталога.
     
  6. Насчёт прокси: работу парсера через прокси я не тестировал, поскольку такой необходимости пока не было.
    Тестировал загрузку больших разделов: как минимум 40 тысяч товаров грузит без проблем, блокировок не наблюдается.
    Но если вдруг начнутся ограничения доступа со стороны сайта, всегда можно подключить прокси-серверы.
     
  7. В стоимость парсера НЕ ВХОДИТ его техподдержка (обновление настроек парсера при изменениях на сайте).
    Исправления будут вноситься за дополнительную плату, но недорого (около 400 руб за каждое обращение).
    Как часто сайт будет меняться, не известно. Парсер может проработать год без доработок, а может перестать выводить данные (полностью или частично) через неделю. Тут от нас ничего не зависит, — на всё воля Озона.
     
  8. Через меню программы Дополнительно — Таблицы замены можно изменить:
    - названия столбцов с характеристиками (можно также отключить вывод ненужных характеристик)
    - названия разделов и подразделов
    - текст, выводимый в столбце Наличие (есть / нет)
     

Ограничения пробной версии: обрабатываются только 5 страниц результатов / 5 товаров с каждой страницы

Стоимость этого парсера без перенастройки («как есть»): 3000 рублей
Стоимость этого парсера c перенастройкой (под ваши нужды): от 4000 рублей
(плюс стоимость программы-парсера 2700 рублей, если вы ранее не покупали надстройку «Parser»)

Комментарии

Добрый день! Возможно сделать такой парсер для нашего сайта для озон? Сколько он будет стоить? Он динамический или статический?

Да, можно
Ответил вам на почту
(Не надо одновременно писать и в комментариях, и на почту)

Добрый день! Нам нужно отслеживать СВОИ товары на ОЗОНЕ. В общем нам нужно следующее: мы даем SKU (цифровые коды товаров ОЗОН), и нам нужно чтобы программа возвращала: 1. Остаток у ОЗОНА (сколько максимально можно положить в корзину сейчас); 2. Текущая цена; 3. Текущие скидки; 4. Комментарии за вчерашний день. Можно так настроить Вашу программу?

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _____    __       _   _  _     _   ____  
|_ _| / _| __| | | || | (_) | __ )
| | | |_ / _` | | || |_ | | | _ \
| | | _| | (_| | |__ _| | | | |_) |
|_| |_| \__,_| |_| |_| |____/
Введите код, изображенный в стиле ASCII-арт.