Какие данные можно собрать с сайта парсером

Парсер может собирать с сайта любые данные, если:

  1. эти данные можно увидеть на страницах сайта, или найти в коде страниц сайта
  2. вы можете объяснить, как на сайте найти / увидеть / получить эту информацию

 

Вроде бы это всё просто и понятно, но хотелось бы добавить некоторые уточнения:
 

1. На некоторых сайтах в каталоге может быть очень много товаров (отображается информация типа «Найдено 4 123 568 товаров»), а выводится на страницах сайта только часть (выдача результатов ограничена каким-то количеством, — например, максимум 100 страниц результатов по 100 товаров / организаций, как в случае с сайтами bus.gov.ru или wildberries.ru).
В этом случае, чтобы получить данные по всем товарам / организациям, вам (как заказчику парсера) необходимо придумать алгоритм, как можно добраться до всех страниц сайта с нужной вам информацией.

В вышеописанных примерах данная проблема решена заметным усложнением алгоритма сбора данных: в парсере wildberries.ru используется перебор диапазонов цен, при количестве товаров в разделе более 10 тысяч, т.е. сначала запрашиваются товары с ценой от 0 до 300 руб, потом от 300 до 500 руб, и т.д., что позволяет в каждом запросе уложиться в десятитысячный лимит по количеству результатов; а парсеру сайта bus.gov.ru приходится перебирать отдельные типы учреждений, а потом по очереди все населенные пункты в составе региона, чтобы уложиться в лимит выдачи в 5000 организаций по любому запросу).

Если вы придумаете, как обойти такие ограничения сайта по количеству результатов в выдаче, и опишете этот способ в задании, то можно будет собрать все данные с сайта. Если же не придумаете, — парсер возьмёт только, что выводится на страницах сайта (например, 10 тысяч товаров из более чем 200 тысяч)
 

2. Если вам нужно вывести количество товара, которое нигде не отображается на страницах сайта, то придумайте способ его увидеть.
Например, при добавлении товара в корзину есть текстовое поле с количеством, — попробуйте написать в это поле 10000, и сайт может высветить предупреждение, что количество неверно, максимум 19 штук можно купить. Или же при добавлении товара в корзину, уже в корзине, мы видим максимальное количество товара к заказу.
Раз мы придумали способ, как увидеть реальное количество товара на сайте, то и парсер сможет получить эти данные и вывести в таблицу. Если же способ вами не придуман, то не просите вывести это поле в результат (парсеру неоткуда будет взять эти данные)
 

3. Парсер не может взять с сайта логины и пароли пользователей, зарегистрированных на каком-либо сайте. Это конфиденциальная информация, нигде на сайте она никогда не отображается. (да, о таком иногда просят)