Особенности использования парсера ozon

Ознакомьтесь с важной информацией, касающейся использования парсера сайта ozon:

  1.  По умолчанию, скачивание файлов выключено.
    Галочка для включения есть на первой вкладке окна настроек («Выполнять загрузку файлов»)
     
  2. Некоторые столбцы по умолчанию не выводятся
    В настройках парсера, на вкладке Вывод на лист, можно посмотреть список столбцов, и включить / отключить нужные столбцы.
    Можно менять порядок столбцов в настройках парсера.
     
  3. На выходе (на листе Excel) может оказаться меньше товаров, чем в каталоге.
    Это связано с тем, что в каталоге сайт Озон изредка отображает товары, при щелчке на которых сайт пишет «Страница не найдена»
    (в таблице Excel для таких товаров в столбце Тип наличия стоит значение 5 - товар снят с сайта)
    Но таких товаров мало (примерно 1 из 1000)
     
  4. Парсер обрабатывает категории с любым количеством товара, но не рекомендуется задавать ссылки на гигантские категории (типа категории Книги, где больше 3 млн товаров)
    Размер категории в 200-300 тыс товаров — нормально. Больше миллиона если, — то не влезет на лист.
     
  5. Парсер выводит 99-100% товаров.
    Не всегда можно вывести 100% товаров, когда в категории больше 150 тыс товаров, из которых 12 тысяч по одной и той же цене.
    В этом случае, парсер не сможет добраться до 2000 товаров, так как сайт ozon устроен таким образом, что по любому запросу / выборке можно получить максимум 10 тыс товаров.
    Если в разделе 12 тысяч товаров по одинаковой цене 100 руб (пример), то добраться до всех этих 12 тысяч товаров весьма проблематично (нужно комбинировать различные способы сортировки, и то не факт что это выдаст все товары), потому, это не реализовано.
    В большинстве случаев, у вас будут выводиться все 100% товаров из каталога.
     
  6. Насчёт прокси: работу парсера через прокси я не тестировал, поскольку такой необходимости пока не было.
    Тестировал загрузку больших разделов: как минимум 40 тысяч товаров грузит без проблем, блокировок не наблюдается.
    Но если вдруг начнутся ограничения доступа со стороны сайта, можно подключить прокси-серверы.
     
  7. В стоимость парсера НЕ ВХОДИТ его техподдержка (обновление настроек парсера при изменениях на сайте).
    Исправления будут вноситься за дополнительную плату, но недорого (около 500 руб за каждое обращение).
    Как часто сайт будет меняться, не известно. Парсер может проработать год без доработок, а может перестать выводить данные (полностью или частично) через неделю. Тут от нас ничего не зависит, — на всё воля Озона.
     
  8. Через меню программы Дополнительно — Таблицы замены можно изменить:
    - названия столбцов с характеристиками (можно также отключить вывод ненужных характеристик)
    - названия разделов и подразделов
    - текст, выводимый в столбце Наличие (есть / нет)
     
  9. В апреле 2020 года ozon включил защиту от ботов (выполняется проверка на использование браузера), и в очередной раз сильно поменял внутреннюю структуру данных.
    Защиту удалось обойти, но не факт, что на вашем компьютере всё заработает.
    Потому, обязательно протестируйте парсер на своём компьютере перед покупкой.
     
  10. С апреля 2020 года со страниц товара исчезла информация об остатках товара, потому, парсер вынужден добавлять каждый товар в корзину, — только так мы можем узнать, сколько товара есть в наличии. Это замедляет процесс парсинга (в минуту парсер теперь выводит около 20 строк).
    Это может быть критично, если вы намерены собирать данные из крупных разделов сайта.

Комментарии

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _____              ____    _____  _____   _  _   
|___ | __ __ / ___| |__ / | ____| | || |
/ / \ \ /\ / / \___ \ / / | _| | || |_
/ / \ V V / ___) | / /_ | |___ |__ _|
/_/ \_/\_/ |____/ /____| |_____| |_|
Введите код, изображенный в стиле ASCII-арт.