Парсинг сайтов: загрузка страниц и авторизация на сайте

В этой видеоинструкции я рассказываю, как при помощи надстройки «Парсер сайтов» авторизоваться на сайте, выполнять GET и POST запросы, работать с Cookies и с браузером Internet Explorer.

Поскольку видео достаточно длинное, привожу дополнительные ссылки на это видео с переходом на соответствующие метки времени:

 

Во вложении к статье, — файл Excel с инструкцией, показанной в этом видео.

Комментарии

Здравствуйте, Дмитрий.
Под эти 3 сайта настроить не получится (на этих сайтах достаточно серьезная защита от роботов)
А чтобы активации докупить - в меню программы нажмите О ПРОГРАММЕ, там есть ссылка на докупку активаций.

Здравствуйте! Подскажите пожалуйста по стоимости настройки парсера на снятия данных статистики с геосервиса (Яндекс Карты, личный кабинет которого находиться на сервисе Яндекс Бизнес) и вообще возможно ли настроить парсер с авторизацией на яндекс бизнес, гугл бизнес и 2гис? И еще один вопрос как добавить еще один ПК к моему пакету? (ранее покупал у вас подписку на пользования вашим парсингом)

Игорь, не могу подсказать, не зная что и как вы там настроили.
Можем настроить под заказ, если предоставите все данные для авторизации.

Сложный двухступенчетый логин
сначала user
затем оно делает редирект получает серийник на третьем сайте и опять редирект и я ввожу пароль.
использую IE
Когда залогинен получаю pagination ссылки и почему то оно закрывает IE
второй шаг не видет страницу ибо IE закрыт.
Как предотвратить закрытие IE и удержание сессии?

Да, Иван, через таблицу замен проще всего отфильтровать нужные

Спасибо огромное, Игорь! Очень помогли! Все получилось)
А то уже начал вручную нужные id брендов в POST запрос вставлять и по отдельности скачивать((
А если мне мне все бренды нужны а только 100 из 300 например, это через таблицу замен проще всего сделать?

Иван, немного не так подуровнями воспользовались, потому и не получилось.
На выходе первого подуровня нужен массив ID брендов (на следующий подуровень они будут передаваться по одному. в переменную ничего сохранять не надо)
На втором подуровне, первым действием сохраняете текущее значение в переменную ID (туда попадет очередной ID бренда), и далее делаете всё как сейчас.
Если сами не разберётесь, - могу настроить под заказ.

Добрый день, Игорь
Не могу разобраться с одной вещью, если не сложно, подскажите где-то разбирался этот вопрос или нет. Настраиваю для себя парсинг товаров с личного кабинета. C POST запросом авторизации разобрался, все работает.
В кабинете ссылки на бренды представлены на одной странице в виде раскрывающихся списков со ссылками вида a href="#", нашел, что на странице они в виде id, получил массив ссылок и сохранил массив в переменную.
На следующем уровне создаю POST запрос для "раскрытия" списка товаров и в действии "Добавить передаваемое POST-значение" в поле значение указываю переменную с массивом id брендов.
Но парсер берет только первое значение из массива...
Пробовал добавлять действие "Увеличить значение счетчика", но оно только прогружает одни и те же товары из первого по списку бренда многократно, по количеству всех брендов.
Уже голову сломал как сделать чтобы все по очереди бренды открывались, 3 дня пытаюсь, но все никак. Надстройка естественно куплена, и не только эта.

Доброго времени суток!
Не получилось настроить с помощью видео "Парсинг сайтов: загрузка страниц и авторизация на сайте" парсинг телефона, который скрыт под кнопкой, с помощью POST запроса. Вместо +7 095 XXX XX XX, +7 082 XXX XX XX и т.д. теперь выдает номер в открытом виде, но всегда одинаковый, тот на который ,был настроен POST запрос. Подскажите пожалуйста где копать.
Использовал команды:
Открыть HTTP соединение
Добавить заголовок запроса (несколько)
Добавить передаваемое POST-значение
Отправить HTTP и получить ответ
Заранее спасибо.

Да, всё это можно.
По комментариям на моём сайте - пару раз слышал о проблеме такой, но пока не могу решить её (очень редко такое, и не знаю с чем связано). Попробуйте с другого браузера.

Здравствуйте! Везде искал, но не нашел. На сайте с которого нужно спарсить информацию, все страницы подгружаются с помощью java script, при этом url один и тот же. Загрузка страницы за счет выбора ... Возможно ли вашей программой спарсить все данные, подгружая этот java script?
И еще... пока пытаюсь верно ввести капчу, чтобы оставить этот комментарий, проходит больше 10 минут...
Тем временем зашел в код страницы, удалил лишние br и смог понять что написано...

Переключение прокси будет в следующем обновлении программы (через несколько дней)
Многопоточность давно реализована.

Возможно ли изменение прокси при получения определенной страницы? (капчи). Появится ли и когда?
Планируется ли добавить многопоточность?
Спасибо

Это http basic authentication (она же http авторизация)
Там передаётся в каждом запросе заголовок запроса Authorization
со значением вида Basic aBcDeF123465==

Посмотрите, какое значение передаётся в заголовке Authorization в браузере после авторизации,
и добавьте в парсер (в набор действий Parser_Start) одно действие - Добавить заголовок запроса
(с параметром Применять для всех запросов = ДА)

Поработал с триал версии- так и не смог понять как выполнить вход на сайт если сайт закрыт простым методом ( паралем в .htacsses ) и когда появляется просто форма запроса логина и пароля . Скоро конец триала а так и не потестировал

Здравствуйте, Наталья
Да, можем настроить всё под заказ
(насчёт Word - вряд ли, а вот в Excel - запросто. Если надо все же в Ворд, это дополнительный макрос надо будет заказывать, потому что парсер выводит данные только в Excel)

Заказы на парсер (по каждому из сайтов) принимаются в таком виде
http://excelvba.ru/programmes/Parser/order

Добрый день! Не могу разобраться в программе, и не понимаю сможет ли она мне помочь (я в этом блондинка). Мне необходимо автоматически сгружать (собирать) конкретную информацию с нескольких сайтов (и желательно в Word, а не exel), например с сайта справочная информация с сайта росреестра об объекте недвижимости, с сайта реформа жкх данные о доме и пр. Если это возможно, то можно ли при покупке программы это чудо установить удаленно?

Меню Дополнительно - Общие настройки программы - вкладка Captcha
Там задаётся API ключ

ок. Понял.
1) Напишите хотя бы куда нужно записать API KEY (с сайта recaptcha.com)
2) и нужно ли делать что-то чтобы действие "решить Google Captcha v.2" видело этот API KEY?.
Где это место в программе "в общих настройках программы нужно задать API-ключ сервиса"?
Спасибо

Могу настроить под заказ
По действию "решить google captcha v.2" пока инструкции нет, а расписывать примеры её использования - времени много займет

Спасибо. Извиняюсь за схожее сообщение (предыдущее долго не появлялось)
Как использовать "решить google captcha v.2" в рамках предложенного в видео способа POST запросов? Т.е. как к тому что в этом видео рассказано добавить решение капчи.
Сейчас я использую "открыть страницу в Internet Explorer", при помощи чего авторизуюсь, но парсер работает очень медленно, плюс по непонятным причинам он пропускает порой страниц по 20 - 50 (при том что у меня всего 300 страниц, с которых надо собрать ссылки)

Здравствуйте. Нужно перед сбором данных с сайта http://www.archello.com на нем один раз авторизоваться, но во время авторизации каждый раз нужно вводить гугл капчу.
1) способом указаным в видео не получается выполнить авторизацию. Возможно ли при помощи POST запросов авторизоваться в нашем случае ?
2) если же нужно использовать действие "решить google captcha v.2", как его использовать в рамках предложенного в видео способа запросов?
Сейчас я использую "открыть страницу в Internet Explorer", при помощи чего авторизуюсь, но парсер работает очень медленно, плюс по непонятным причинам он пропускает порой страниц по 20 - 50 (при том что у меня всего 300 страниц, с которых надо собрать ссылки)

1) нет, без ввода капчи никак
2) нет (да и зачем? специально для этого же действие сделано)
3) без браузера и без ввода капчи - скорее всего, никак. по крайней мере, я не в курсе, как сделать

Здравствуйте. Что делать если при авторизации на сайте каждый раз нужно вводить гугловскую рекапчу. Авторизоваться нужно только один раз в начале.
1) Решить это способами указыными в этом видео не получится?
2) Возможно ли обойтись без действия "Решить Google Captcha v.2"?
3) Каким образом авторизоваться на сайте в этом случае (если не использовать действия "открыть страницу в Internet Explorer"?

Добрый день! Ответил Вам на почту.

Сколько стоит парсинг Я.Маркета. По категории смартфонов.
Определяем 10.000 топовых смартов и угоняем их цены, описание, фотки. Далее нужна будет актуализация цен на товары, которые парсер сграббил. Я так понимаю, что маркет, это не самая простая задача для парсинга, будет ли там все сделано под ключ, с обходом капч и и т.д

Можем настроить под заказ, - обращайтесь

Добрый день, не получается авторизироватся на сайте https://www.ebay.com/
Спасибо

Карен, там всё просто
Действие «Авторизация на сайте»
Параметр «URL для запроса»: http://winner-bagz.ru/ajax/dmp-auth.php
Параметр «Передаваемые данные»: mode=auth&login=ВАШ_EMAIL&password=ВАШ_ПАРОЛЬ&rememberme=Y

Хорошее видео!
Но пытался авторизоваться на http://winner-bagz.ru/
ни чего не получилось...хотя сайт простейший. что делаю не так? не пойму