- Как заказать парсер сайта
- Видеоинструкции по настройке
- Добавление (подключение) готового парсера
- Парсер сайтов: инструкция по настройке парсера для интернет-магазина
- Дополнительные возможности интерфейса (режим разработчика)
- Настройка парсера для обработки PDF файлов
Парсинг сайтов: загрузка страниц и авторизация на сайте
- Обучение настройке парсера
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Парсинг сайтов: загрузка страниц и авторизация на сайте |
В этой видеоинструкции я рассказываю, как при помощи надстройки «Парсер сайтов» авторизоваться на сайте, выполнять GET и POST запросы, работать с Cookies и с браузером Internet Explorer.
Поскольку видео достаточно длинное, привожу дополнительные ссылки на это видео с переходом на соответствующие метки времени:
- Как работает браузер при загрузке страницы (отправка и получение заголовков запроса)
- Что такое Cookies и для чего они используются
- Действия в программе «Парсер сайтов» для загрузки страниц сайта
- Авторизация на сайте при помощи парсера
- Сброс подключения (очистка заголовков запроса и Cookies)
- Использование авторизации из браузера Internet Explorer
- Выбор региона при работе с сайтом
- Действие «Загрузить исходный код веб-страницы»: параметры действия
- Действие «Открыть страницу в Internet Explorer»: параметры действия
- Конструктор запросов к сайту (метод GET или POST) — для особо сложных случаев
- Прочие действия, связанные с выполнением запросов
- Подключение к ранее запущенному браузеру Internet Explorer
- Прокрутка страницы в браузере Internet Explorer
- Кеширование страниц парсером
- Использование прокси-сервера для подключения к сайту
Во вложении к статье, — файл Excel с инструкцией, показанной в этом видео.
- Добавить комментарий
- 21281 просмотр
Комментарии
Здравствуйте, Дмитрий.
Под эти 3 сайта настроить не получится (на этих сайтах достаточно серьезная защита от роботов)
А чтобы активации докупить - в меню программы нажмите О ПРОГРАММЕ, там есть ссылка на докупку активаций.
Здравствуйте! Подскажите пожалуйста по стоимости настройки парсера на снятия данных статистики с геосервиса (Яндекс Карты, личный кабинет которого находиться на сервисе Яндекс Бизнес) и вообще возможно ли настроить парсер с авторизацией на яндекс бизнес, гугл бизнес и 2гис? И еще один вопрос как добавить еще один ПК к моему пакету? (ранее покупал у вас подписку на пользования вашим парсингом)
Игорь, не могу подсказать, не зная что и как вы там настроили.
Можем настроить под заказ, если предоставите все данные для авторизации.
Сложный двухступенчетый логин
сначала user
затем оно делает редирект получает серийник на третьем сайте и опять редирект и я ввожу пароль.
использую IE
Когда залогинен получаю pagination ссылки и почему то оно закрывает IE
второй шаг не видет страницу ибо IE закрыт.
Как предотвратить закрытие IE и удержание сессии?
Да, Иван, через таблицу замен проще всего отфильтровать нужные
Спасибо огромное, Игорь! Очень помогли! Все получилось)
А то уже начал вручную нужные id брендов в POST запрос вставлять и по отдельности скачивать((
А если мне мне все бренды нужны а только 100 из 300 например, это через таблицу замен проще всего сделать?
Иван, немного не так подуровнями воспользовались, потому и не получилось.
На выходе первого подуровня нужен массив ID брендов (на следующий подуровень они будут передаваться по одному. в переменную ничего сохранять не надо)
На втором подуровне, первым действием сохраняете текущее значение в переменную ID (туда попадет очередной ID бренда), и далее делаете всё как сейчас.
Если сами не разберётесь, - могу настроить под заказ.
Добрый день, Игорь
Не могу разобраться с одной вещью, если не сложно, подскажите где-то разбирался этот вопрос или нет. Настраиваю для себя парсинг товаров с личного кабинета. C POST запросом авторизации разобрался, все работает.
В кабинете ссылки на бренды представлены на одной странице в виде раскрывающихся списков со ссылками вида a href="#", нашел, что на странице они в виде id, получил массив ссылок и сохранил массив в переменную.
На следующем уровне создаю POST запрос для "раскрытия" списка товаров и в действии "Добавить передаваемое POST-значение" в поле значение указываю переменную с массивом id брендов.
Но парсер берет только первое значение из массива...
Пробовал добавлять действие "Увеличить значение счетчика", но оно только прогружает одни и те же товары из первого по списку бренда многократно, по количеству всех брендов.
Уже голову сломал как сделать чтобы все по очереди бренды открывались, 3 дня пытаюсь, но все никак. Надстройка естественно куплена, и не только эта.
Доброго времени суток!
Не получилось настроить с помощью видео "Парсинг сайтов: загрузка страниц и авторизация на сайте" парсинг телефона, который скрыт под кнопкой, с помощью POST запроса. Вместо +7 095 XXX XX XX, +7 082 XXX XX XX и т.д. теперь выдает номер в открытом виде, но всегда одинаковый, тот на который ,был настроен POST запрос. Подскажите пожалуйста где копать.
Использовал команды:
Открыть HTTP соединение
Добавить заголовок запроса (несколько)
Добавить передаваемое POST-значение
Отправить HTTP и получить ответ
Заранее спасибо.
Да, всё это можно.
По комментариям на моём сайте - пару раз слышал о проблеме такой, но пока не могу решить её (очень редко такое, и не знаю с чем связано). Попробуйте с другого браузера.
Здравствуйте! Везде искал, но не нашел. На сайте с которого нужно спарсить информацию, все страницы подгружаются с помощью java script, при этом url один и тот же. Загрузка страницы за счет выбора ... Возможно ли вашей программой спарсить все данные, подгружая этот java script?
И еще... пока пытаюсь верно ввести капчу, чтобы оставить этот комментарий, проходит больше 10 минут...
Тем временем зашел в код страницы, удалил лишние br и смог понять что написано...
Переключение прокси будет в следующем обновлении программы (через несколько дней)
Многопоточность давно реализована.
Возможно ли изменение прокси при получения определенной страницы? (капчи). Появится ли и когда?
Планируется ли добавить многопоточность?
Спасибо
Это http basic authentication (она же http авторизация)
Там передаётся в каждом запросе заголовок запроса Authorization
со значением вида Basic aBcDeF123465==
Посмотрите, какое значение передаётся в заголовке Authorization в браузере после авторизации,
и добавьте в парсер (в набор действий Parser_Start) одно действие - Добавить заголовок запроса
(с параметром Применять для всех запросов = ДА)
Поработал с триал версии- так и не смог понять как выполнить вход на сайт если сайт закрыт простым методом ( паралем в .htacsses ) и когда появляется просто форма запроса логина и пароля . Скоро конец триала а так и не потестировал
Здравствуйте, Наталья
Да, можем настроить всё под заказ
(насчёт Word - вряд ли, а вот в Excel - запросто. Если надо все же в Ворд, это дополнительный макрос надо будет заказывать, потому что парсер выводит данные только в Excel)
Заказы на парсер (по каждому из сайтов) принимаются в таком виде
http://excelvba.ru/programmes/Parser/order
Добрый день! Не могу разобраться в программе, и не понимаю сможет ли она мне помочь (я в этом блондинка). Мне необходимо автоматически сгружать (собирать) конкретную информацию с нескольких сайтов (и желательно в Word, а не exel), например с сайта справочная информация с сайта росреестра об объекте недвижимости, с сайта реформа жкх данные о доме и пр. Если это возможно, то можно ли при покупке программы это чудо установить удаленно?
Меню Дополнительно - Общие настройки программы - вкладка Captcha
Там задаётся API ключ
ок. Понял.
1) Напишите хотя бы куда нужно записать API KEY (с сайта recaptcha.com)
2) и нужно ли делать что-то чтобы действие "решить Google Captcha v.2" видело этот API KEY?.
Где это место в программе "в общих настройках программы нужно задать API-ключ сервиса"?
Спасибо
Могу настроить под заказ
По действию "решить google captcha v.2" пока инструкции нет, а расписывать примеры её использования - времени много займет
Спасибо. Извиняюсь за схожее сообщение (предыдущее долго не появлялось)
Как использовать "решить google captcha v.2" в рамках предложенного в видео способа POST запросов? Т.е. как к тому что в этом видео рассказано добавить решение капчи.
Сейчас я использую "открыть страницу в Internet Explorer", при помощи чего авторизуюсь, но парсер работает очень медленно, плюс по непонятным причинам он пропускает порой страниц по 20 - 50 (при том что у меня всего 300 страниц, с которых надо собрать ссылки)
Здравствуйте. Нужно перед сбором данных с сайта http://www.archello.com на нем один раз авторизоваться, но во время авторизации каждый раз нужно вводить гугл капчу.
1) способом указаным в видео не получается выполнить авторизацию. Возможно ли при помощи POST запросов авторизоваться в нашем случае ?
2) если же нужно использовать действие "решить google captcha v.2", как его использовать в рамках предложенного в видео способа запросов?
Сейчас я использую "открыть страницу в Internet Explorer", при помощи чего авторизуюсь, но парсер работает очень медленно, плюс по непонятным причинам он пропускает порой страниц по 20 - 50 (при том что у меня всего 300 страниц, с которых надо собрать ссылки)
1) нет, без ввода капчи никак
2) нет (да и зачем? специально для этого же действие сделано)
3) без браузера и без ввода капчи - скорее всего, никак. по крайней мере, я не в курсе, как сделать
Здравствуйте. Что делать если при авторизации на сайте каждый раз нужно вводить гугловскую рекапчу. Авторизоваться нужно только один раз в начале.
1) Решить это способами указыными в этом видео не получится?
2) Возможно ли обойтись без действия "Решить Google Captcha v.2"?
3) Каким образом авторизоваться на сайте в этом случае (если не использовать действия "открыть страницу в Internet Explorer"?
Добрый день! Ответил Вам на почту.
Сколько стоит парсинг Я.Маркета. По категории смартфонов.
Определяем 10.000 топовых смартов и угоняем их цены, описание, фотки. Далее нужна будет актуализация цен на товары, которые парсер сграббил. Я так понимаю, что маркет, это не самая простая задача для парсинга, будет ли там все сделано под ключ, с обходом капч и и т.д
Можем настроить под заказ, - обращайтесь
Добрый день, не получается авторизироватся на сайте https://www.ebay.com/
Спасибо
Карен, там всё просто
Действие «Авторизация на сайте»
Параметр «URL для запроса»: http://winner-bagz.ru/ajax/dmp-auth.php
Параметр «Передаваемые данные»: mode=auth&login=ВАШ_EMAIL&password=ВАШ_ПАРОЛЬ&rememberme=Y
Хорошее видео!
Но пытался авторизоваться на http://winner-bagz.ru/
ни чего не получилось...хотя сайт простейший. что делаю не так? не пойму