Статья является инструкцией по надстройке Parser

Действие парсера «Решить Google Captcha v.2»

Действие выполняет запрос на платный сервис распознавания капчи RuCaptcha.com

Для использования этой опции, в общих настройках программы нужно задать API-ключ сервиса (для его получения, надо зарегистрироваться на сайте RuCaptcha.com, и пополнить счёт)

Действие возвращает токен, который надо передать в POST запросе (параметр g-recaptcha-response)
Результат решения капчи (токен) автоматически сохраняется в переменную с именем g-recaptcha-response

В качестве параметров задаётся:

1) URL страницы сайта (если не задан, используется последний загруженный URL, или текущее значение, если оно является ссылкой)

2) Ключ сайта - параметр data-sitekey из div class=g-recaptcha (если не задан, будет найден автоматически, если текущее значение - HTML код страницы)

В параметре «Дополнительные опции» можно задать дополнительные параметры запроса согласно API сервиса rucaptcha.com
Например, параметры proxy=логин:пароль@1.2.3.4:3128 или proxytype=HTTPS

 

Полноценная инструкция по действию будет опубликована позже.
(обычно мы настраиваем сложные парсеры с обработкой капчи сами, под заказ)
Пока здесь лишь краткое описание, как что примерно делается.

 

Порядок действий при обработке Captcha парсером:

1) Вместо действия ЗАГРУЗИТЬ ИСХОДНЫЙ КОД ВЕБ_СТРАНИЦЫ
мы везде ставим действие ВЫПОЛНИТЬ НАБОР ДЕЙСТВИЙ с названием, например, Загрузить страницу

2) На вкладке Дополнительно, подвкладка Наборы действий,
создаём новый набор действий с таким названием, какое указали в предыдущем пункте (Загрузить страницу)

3) В этот набор действий добавляем команды для загрузки страницы, проверки наличия на ней капчи, распознавания капчи, отправки распознанной капчи на сайт.

Выглядеть список действий будет примерно так:
(можете скачать и посмотреть настройки этого парсера по этой ссылке)

 

Действие Параметр Значение
Сохранить текущее значение в переменную Название переменной currentURL
Область видимости parser
Загрузить ИСХОДНЫЙ КОД веб-страницы URL  
Кодировка веб-страницы  
Загружать все страницы результатов  
Проверка на выполнение условия Режим проверки не содержит
Значение для сравнения >Защита от роботов<
Действие при выполнении условия Остановить
Параметр действия -1
Проверять другое значение нет
Другое проверяемое значение  
Сохранить текущее значение в переменную Название переменной currentHTML
Область видимости parser
HTML: Поиск тегов Тип элемента div
Название проверяемого атрибута class
Значение проверяемого атрибута g-recaptcha
Тип результата / извлекаемый атрибут data-sitekey 1
Сохранить текущее значение в переменную Название переменной data-sitekey
Область видимости parser
Решить Google Captcha v.2 URL страницы с капчей %currentURL%
Ключ сайта %data-sitekey%
Показывать уведомления yes
Дополнительные опции  
Время ожидания ответа, сек. 150
Считать значение переменной Название переменной currentHTML
Область видимости parser
Значение по-умолчанию  
HTML: Поиск тегов Тип элемента input
Название проверяемого атрибута name
Значение проверяемого атрибута url
Тип результата / извлекаемый атрибут value 1
Сохранить текущее значение в переменную Название переменной captcha-url
Область видимости parser
Добавить заголовок запроса Заголовок referer
Значение %currentURL%
Использовать для ВСЕХ запросов да
Выполнить POST-запрос URL для POST-запроса https://tiu.ru/check_captcha
Строка параметров g-recaptcha-response=%g-recaptcha-response%&url=%captcha-url%
Кодировка веб-страницы  
Кешировать запросы нет

 

В процессе обработки капчи, на прогресс-баре отображается ход выполнения запроса к сервису RuCaptcha: