- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
Прокси серверы
Прокси серверы |
Прокси сервер — это сервер-посредник, через который идёт запрос от вашего компьютера (программы-парсера) к сайту, откуда собирается информация.
От парсера идет запрос не напрямую на сайт, а на прокси-сервер, который соединяется с сайтом со своего IP адреса, и сайту не видно, кто реально запрашивает данные.
Прокси-серверы в парсере применяются для 4 основных целей:
- Избежание блокировки со стороны сайта, из-за большого количества запросов с одного IP адреса.
После определенного числа запросов, происходит переключение на следующий прокси-сервер, и запросу к сайту таким образом идут с разных IP адресов, поэтому блокировка не успевает сработать.
- Обход нерешаемой / сложной / трудоёмкой капчи.
Хотя парсер умеет решать капчу (Captcha) в автоматическом режиме, в некоторых случаях на это уходит слишком много времени. Учитывая, что капча обычно появляется не сразу, а только после нескольких обращений к сайту, самым простым способом решения проблемы является частая смена IP адреса на новый
- Обход ограничений доступа.
Доступ к некоторым сайтам бывает ограничен законодательно (Роскомпозор старается «защитить» нас), или же некоторые сайты доступны только из определённой страны (некоторые сайты в США отображают данные только при входе на сайт с американских IP)
Тут не стоит задачи регулярно менять IP адреса, а достаточно прописать лишь один прокси из той страны, откуда доступ к сайту разрешён.
В этом случае можно купить прокси нужной страны (например, США или Украины), и прописать его в настройках парсера.
- Скрыть своё присутствие на сайте.
Например, вы выполняете мониторинг цен на сайтах, но не хотите, чтобы коллега или конкурент узнал о самом факте вашего наблюдения (хотя, ничего противозаконного в этом нет), или даже о факте сбора данных с его сайта в принципе.
При использовании прокси можно добиться такого, что каждый запрос будет идти с нового IP адреса, и администратор сайта даже при анализе логов доступа вряд ли сообразит, что тут происходит.
Прокси бывают разные — читайте в отдельной инструкции про различные типы прокси-серверов, и какие лучше подойдут для вашей задачи.
В парсере настройки прокси задаются на вкладке Прокси серверы
Парсер может сам обновлять список прокси при необходимости
ИНСТРУКЦИЯ ПО ПОДКЛЮЧЕНИЮ ПРОКСИ В ПАРСЕРЕ
- Добавить комментарий
- 4561 просмотр