- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Какие данные можно собрать с сайта парсером |
Парсер может собирать с сайта любые данные, если:
- эти данные можно увидеть на страницах сайта, или найти в коде страниц сайта
- вы можете объяснить, как на сайте найти / увидеть / получить эту информацию
Вроде бы это всё просто и понятно, но хотелось бы добавить некоторые уточнения:
1. На некоторых сайтах в каталоге может быть очень много товаров (отображается информация типа «Найдено 4 123 568 товаров»), а выводится на страницах сайта только часть (выдача результатов ограничена каким-то количеством, — например, максимум 100 страниц результатов по 100 товаров / организаций, как в случае с сайтами bus.gov.ru или wildberries.ru).
В этом случае, чтобы получить данные по всем товарам / организациям, вам (как заказчику парсера) необходимо придумать алгоритм, как можно добраться до всех страниц сайта с нужной вам информацией.
В вышеописанных примерах данная проблема решена заметным усложнением алгоритма сбора данных: в парсере wildberries.ru используется перебор диапазонов цен, при количестве товаров в разделе более 10 тысяч, т.е. сначала запрашиваются товары с ценой от 0 до 300 руб, потом от 300 до 500 руб, и т.д., что позволяет в каждом запросе уложиться в десятитысячный лимит по количеству результатов; а парсеру сайта bus.gov.ru приходится перебирать отдельные типы учреждений, а потом по очереди все населенные пункты в составе региона, чтобы уложиться в лимит выдачи в 5000 организаций по любому запросу).
Если вы придумаете, как обойти такие ограничения сайта по количеству результатов в выдаче, и опишете этот способ в задании, то можно будет собрать все данные с сайта. Если же не придумаете, — парсер возьмёт только, что выводится на страницах сайта (например, 10 тысяч товаров из более чем 200 тысяч)
2. Если вам нужно вывести количество товара, которое нигде не отображается на страницах сайта, то придумайте способ его увидеть.
Например, при добавлении товара в корзину есть текстовое поле с количеством, — попробуйте написать в это поле 10000, и сайт может высветить предупреждение, что количество неверно, максимум 19 штук можно купить. Или же при добавлении товара в корзину, уже в корзине, мы видим максимальное количество товара к заказу.
Раз мы придумали способ, как увидеть реальное количество товара на сайте, то и парсер сможет получить эти данные и вывести в таблицу. Если же способ вами не придуман, то не просите вывести это поле в результат (парсеру неоткуда будет взять эти данные)
3. Парсер не может взять с сайта логины и пароли пользователей, зарегистрированных на каком-либо сайте. Это конфиденциальная информация, нигде на сайте она никогда не отображается. (да, о таком иногда просят)
- Добавить комментарий
- 3883 просмотра