В этой инструкции описан порядок настройки автоматического решения капчи (Captcha) на сайтах.
Капча на страницах сайта обычно выводится не сразу (при загрузке первой страницы сайта), а случайным образом (через некоторое время, после загрузки некоторого числа страниц).
По этой причине, приходится проверять все загруженные страницы на наличие в них признака капчи (например, текста Я не робот), и выполнять определённые действия только для таких страниц.
Первым делом, подключаем сервис распознавания Captcha к парсеру
После этого, настраиваем перехват страниц с капчей.
В настройках парсера, идём на вкладку Дополнительно, потом на подвкладку Captcha:
После включения галочки «Отслеживать наличие капчи на загружаемы страницах», нам становятся доступны для редактирования 5 опций:
- Признак наличия капчи
Сюда мы вводим текст, присутствующий на странице капчи, но отсутствующий на удачно загруженных страницах.
Достаточно лишь небольшого куска текста, и, желательно, без тегов (HTML код может поменяться, и проверка не сработает) - Выполнять набор действий
По умолчанию, в этом поле написано название набора действий Parser_OnCaptcha
Вы можете указать любой другой набор действий, выбрав его название из выпадающего списка. - Количество попыток распознавания Captcha
В большинстве случаев, вполне достаточно 3 попыток (бывают сложночитаемые капчи, когда работники сервиса распознавания Captcha с первого раза не угадывают, что написано на картинке).
Обычно, капча разгадывается с 1 попытки, реже — с 2 попыток.
Значение больше 5 ставить не рекомендуется. Если за 5 раз капча не разгадана, — скорее всего, дело не в капче, а в неверных настройках отправки результата в наборе действий - Выводить всплывающие уведомления
Оставьте эту опцию включенной, по крайне мере на время настройки парсера.
Когда всё будет настроено и работать как надо, вывод уведомлений можно будет отключить
На скриншоте КРАСНЫМ выделены уведомления, выводимые при включении этой опции:
(помеченные ЗЕЛЁНЫМ уведомления включаются отдельно, по умолчанию они отключены) - Перезагружать страницу после ввода капчи
Обычно эту галочку можно оставить включенной.
Эту опцию НУЖНО отключить, если капча выводится на каждой странице;
эту опцию МОЖНО отключить, если после отправки POST запроса в наборе действий, сервер возвращает HTML код нужной страницы, и нет необходимости его загружать повторно.
Теперь, когда детектирование капчи на страницах настроено, переходим к настройке набора действий для обработки капчи