Статья является примером использования программы «Парсер сайтов и файлов» для сбора данных с веб-страниц

Инструкция по добавлению файла настроек в программу

Парсер сайта ozon.ru

Задача: 

Выгрузить из заданных разделов сайта ozon.ru максимум доступной информации о товарах: наименование, цену и скидки, наличие и остатки, рейтинг и количество отзывов, описание, ссылки на изображения и характеристики товара.

ВложениеРазмерЗагрузкиПоследняя загрузка
Пример результата работы парсера ozon в файле Excel70.63 КБ0Ещё не загружался
Настройки парсера для сайта ozon.ru13.21 КБ0Ещё не загружался
Описание: 

Смотрите также аналогичные парсеры для сайтов wildberries и lamoda

 

Исходными данными для этого парсера являются ссылки на разделы (категории) сайта.
(сразу весь сайт спарсить не получится, там слишком много товаров, — потому, парсим только нужное)

Примеры исходных данных для парсера ozon:

https://www.ozon.ru/category/posuda-i-kuhonnye-prinadlezhnosti-14501/<br />
https://www.ozon.ru/category/platya-zhenskie-7502/<br />
https://www.ozon.ru/category/nehudozhestvennaya-literatura-16511/

 

Парсер выводит на лист следующие столбцы:

  • ID товара
  • Подраздел (выводится в 5 столбцов)
  • Наименование
  • Бренд
  • Цена
  • Скидка, и цена до скидки
  • Баллы по Ozon.Card
  • Рейтинг товара
  • Количество отзывов
  • Дата первого отзыва, и кол-во дней на сайте (исходя из этой даты)
  • Ссылка на страницу товара
  • Продавец
  • Остаток товара, и сколько товара доступно (иногда эти значения немного отличаются)
  • Наличие товара (есть / нет)
  • Описание (в текстовом формате и в HTML)
  • Ссылка на фото (выводится в несколько столбцов)

 

Справа от этих столбцов парсер выводит характеристики товара, автоматически добавляя новые столбцы по мере обнаружения в карточках товаров новых характеристик:

  • Тип
  • Количество в упаковке, шт.
  • Назначение
  • Объем
  • Материал
  • Бренд
  • Страна
  • Комплектация
  • Упаковка
  • Артикул
  • Цвет
  • и т.д. и т.п. (количество столбцов не ограничено)

 

Парсер может скачивать изображения товара, сохраняя их в папку под именами вида артикул.jpg, артикул-2.jpg, артикул-3.jpg и т.д.
На лист также можно вывести имена сохранённых файлов.

 

ВАЖНЫЕ ПРИМЕЧАНИЯ, касательно использования этого парсера:

  1.  По умолчанию, скачивание файлов выключено.
    Галочка для включения есть на первой вкладке окна настроек («Выполнять загрузку файлов»)
     
  2. Некоторые столбцы по умолчанию не выводятся
    В настройках парсера, на вкладке Вывод на лист, можно посмотреть список столбцов, и включить / отключить нужные столбцы.
    Можно менять порядок столбцов в настройках парсера.
     
  3. На выходе (на листе Excel) может оказаться меньше товаров, чем в каталоге.
    Это связано с тем, что в каталоге сайт Озон изредка отображает товары, при щелчке на которых сайт пишет «Страница не найдена»
    (в таблице Excel для таких товаров в столбце Тип наличия стоит значение 5 - типа, товар снят с сайта)
    Но таких товаров мало (примерно 1 из 1000)
     
  4. Парсер обрабатывает категории с любым количеством товара, но не рекомендуется задавать ссылки на гигантские категории (типа категории Книги, где больше 3 млн товаров)
    Размер категории в 200-300 тыс товаров — нормально. Больше миллиона если, — то не влезет на лист.
     
  5. Парсер выводит 99-100% товаров.
    Не всегда можно вывести 100% товаров, когда в категории больше 150 тыс товаров, из которых 12 тысяч по одной и той же цене.
    В этом случае, парсер не сможет добраться до 2000 товаров, так как сайт ozon устроен таким образом, что по любому запросу / выборке можно получить максимум 10 тыс товаров.
    Если в разделе 12 тысяч товаров по одинаковой цене 100 руб (пример), то добраться до всех этих 12 тысяч товаров весьма проблематично (нужно комбинировать различные способы сортировки, и то не факт что это выдаст все товары), потому, это не реализовано.
    В большинстве случаев, у вас будут выводиться все 100% товаров из каталога.
     
  6. Насчёт прокси: работу парсера через прокси я не тестировал, поскольку такой необходимости пока не было.
    Тестировал загрузку больших разделов: как минимум 40 тысяч товаров грузит без проблем, блокировок не наблюдается.
    Но если вдруг начнутся ограничения доступа со стороны сайта, можно подключить прокси-серверы.
     
  7. В стоимость парсера НЕ ВХОДИТ его техподдержка (обновление настроек парсера при изменениях на сайте).
    Исправления будут вноситься за дополнительную плату, но недорого (около 400 руб за каждое обращение).
    Как часто сайт будет меняться, не известно. Парсер может проработать год без доработок, а может перестать выводить данные (полностью или частично) через неделю. Тут от нас ничего не зависит, — на всё воля Озона.
     
  8. Через меню программы Дополнительно — Таблицы замены можно изменить:
    - названия столбцов с характеристиками (можно также отключить вывод ненужных характеристик)
    - названия разделов и подразделов
    - текст, выводимый в столбце Наличие (есть / нет)
     
  9. В апреле 2020 года ozon включил защиту от ботов (выполняется проверка на использование браузера), и в очередной раз сильно поменял внутреннюю структуру данных.
    Защиту удалось обойти, но не факт, что на вашем компьютере всё заработает.
    Потому, обязательно протестируйте парсер на своём компьютере перед покупкой.
     
  10. С апреля 2020 года со страниц товара исчезла информация об остатках товара, потому, парсер вынужден добавлять каждый товар в корзину, — только так мы можем узнать, сколько товара есть в наличии. Это замедляет процесс парсинга (в минуту парсер теперь выводит около 20 строк).
    Это может быть критично, если вы намерены собирать данные из крупных разделов сайта.

Ограничения пробной версии: обрабатываются только 5 страниц результатов / 5 товаров с каждой страницы

Стоимость этого парсера без перенастройки («как есть»): 3000 рублей
Стоимость этого парсера c перенастройкой (под ваши нужды): от 4000 рублей
(плюс стоимость программы-парсера 2700 рублей, если вы ранее не покупали надстройку «Parser»)

Комментарии

Азат, ответ на картинке:

Добрый день! Как мне установить парсер сайта Озон, WB пробные версии. Не нашел на странице где скачать...

Я в парсер не планирую встраивать функционал сравнения выгрузки с предыдущей
(потому что там кучу настроек нужно будет, - в какой папке под каким именем искать старый файл, что с чем сравнивать, что куда выводить)
К тому же, есть отдельная надстройка для сравнения файлов, которая как раз заточена под эту задачу, и может одним нажатием кнопки сравнить файлы и вывести разницу в нужный столбец нужного файла:
https://excelvba.ru/programmes/Lookup

При покупке этого парсера (2700+3000 руб) - лицензия на 3 компьютера дается.
Если надо больше компов, - по 600 руб за каждый дополнительный комп.

А если каждый день запускать, парсер сам не может по формуле в эксель выводить значения разницы в остатке в виде продаж? На несколько компьюеров парсер можно будет установить?

Да, можно
Поскольку парсер оперирует только текущими данными, у него нет данных за предыдущие дни, и он не может вывести количество продаж.
Но вы можете раз в день / неделю запускать парсер, накапливая таким образом данные по остаткам (файлы с каждого запуска парсера), и потом сами сделать аналитику.

Добрый вечер. Скажите пожалуйста если есть сведения об остатках товара, можно ли отталкиваясь от этого получить информацию о количестве продаж за указанный период? Например сегодня остаток у определённого товара 45 шт. Через 3 дня 21 шт.. Количество продаж за 3 дня 24 шт

А где он там, этот штрихкод?
Если в свойствах товара, - то все свойства выводятся, ищите такой столбец.

Здравствуйте!
Можно в парсер добавить вывод штрихкода по товарам?

Добрый день! Возможно сделать такой парсер для нашего сайта для озон? Сколько он будет стоить? Он динамический или статический?

Да, можно
Ответил вам на почту
(Не надо одновременно писать и в комментариях, и на почту)

Добрый день! Нам нужно отслеживать СВОИ товары на ОЗОНЕ. В общем нам нужно следующее: мы даем SKU (цифровые коды товаров ОЗОН), и нам нужно чтобы программа возвращала: 1. Остаток у ОЗОНА (сколько максимально можно положить в корзину сейчас); 2. Текущая цена; 3. Текущие скидки; 4. Комментарии за вчерашний день. Можно так настроить Вашу программу?

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  ____            _      __  __                 
| __ ) _ _ | |__ \ \/ / __ __ ___
| _ \ | | | | | '_ \ \ / \ \ /\ / / / __|
| |_) | | |_| | | |_) | / \ \ V V / \__ \
|____/ \__,_| |_.__/ /_/\_\ \_/\_/ |___/
Введите код, изображенный в стиле ASCII-арт.