Автоматическое решение капчи

В этой инструкции описан порядок настройки автоматического решения капчи (Captcha) на сайтах.

Капча на страницах сайта обычно выводится не сразу (при загрузке первой страницы сайта), а случайным образом (через некоторое время, после загрузки некоторого числа страниц).
По этой причине, приходится проверять все загруженные страницы на наличие в них признака капчи (например, текста Я не робот), и выполнять определённые действия только для таких страниц.

Первым делом, подключаем сервис распознавания Captcha к парсеру

После этого, настраиваем перехват страниц с капчей.

В настройках парсера, идём на вкладку Дополнительно, потом на подвкладку Captcha:

 

После включения галочки «Отслеживать наличие капчи на загружаемы страницах», нам становятся доступны для редактирования 5 опций:

  1. Признак наличия капчи
    Сюда мы вводим текст, присутствующий на странице капчи, но отсутствующий на удачно загруженных страницах.
    Достаточно лишь небольшого куска текста, и, желательно, без тегов (HTML код может поменяться, и проверка не сработает)
  2. Выполнять набор действий
    По умолчанию, в этом поле написано название набора действий Parser_OnCaptcha
    Вы можете указать любой другой набор действий, выбрав его название из выпадающего списка.
  3. Количество попыток распознавания Captcha
    В большинстве случаев, вполне достаточно 3 попыток (бывают сложночитаемые капчи, когда работники сервиса распознавания Captcha с первого раза не угадывают, что написано на картинке).
    Обычно, капча разгадывается с 1 попытки, реже — с 2 попыток.
    Значение больше 5 ставить не рекомендуется. Если за 5 раз капча не разгадана, — скорее всего, дело не в капче, а в неверных настройках отправки результата в наборе действий
  4. Выводить всплывающие уведомления
    Оставьте эту опцию включенной, по крайне мере на время настройки парсера.
    Когда всё будет настроено и работать как надо, вывод уведомлений можно будет отключить
    На скриншоте КРАСНЫМ выделены уведомления, выводимые при включении этой опции:
    (помеченные ЗЕЛЁНЫМ уведомления включаются отдельно, по умолчанию они отключены)

  5. Перезагружать страницу после ввода капчи
    Обычно эту галочку можно оставить включенной.
    Эту опцию НУЖНО отключить, если капча выводится на каждой странице;
    эту опцию МОЖНО отключить, если после отправки POST запроса в наборе действий, сервер возвращает HTML код нужной страницы, и нет необходимости его загружать повторно.

Теперь, когда детектирование капчи на страницах настроено, переходим к настройке набора действий для обработки капчи