Начиная с версии 4.0.0, надстройка «Парсер сайтов» позволяет использовать современные браузеры (Chrome, Edge, Mozilla, Opera) для взаимодействия с сайтами.
Данный функционал обеспечивается при помощи инструмента Selenium, и потребует установки дополнительного ПО (инструкция по установке)
Использование браузера поможет решить следующие задачи:
- обойти защиту сайтов, выполняющих проверку на браузер (крупные интернет площадки)
- загружать страницы сайтов, которые не открываются в Internet Explorer
- автоматизировать заполнение сложных форм на сайте данными из Excel
- парсить ПДФ файлы
- делать скриншоты страниц сайта
Какой браузер можно / лучше использовать?
- парсер поддерживает все современные браузеры, которые можно установить под Windows: это Chrome, Edge, Mozilla и Opera.
- устаревший браузер Internet Explorer тоже поддерживает этот функционал, но им не имеет смысла пользоваться
- весь функционал тестируется прежде всего на браузере Google Chrome, потому желательно использовать именно его
- если стоит задача обходить защиту сайтов от DDoS (типа QRATOR), то нужен именно Chrome
(на данный момент, только в нём реализован обход систем защиты, проверяющих факт управления браузером сторонней программой типа Selenium)
Нужно ли использовать браузер для загрузки страниц?
- для подавляющего большинства сайтов — нет, не нужно
Используйте действие «Загрузить страницу по ссылке» с режимом загрузки WinHTTP / WinAPI / WinINET — этот способ будет работать намного быстрее, поскольку загружается намного меньше данных (только HTML код страницы, без картинок и прочего) - браузер нужен, если основные данные на странице выводятся сложными скриптами, разобраться в работе которых не получается, или же просто не хочется тратить на это время, либо если обычный способ загрузки страницы не даёт результата (срабатывает защита, выводится сообщение об устаревшем браузере, и т.п.)
Как использовать браузер для парсинга?
- Устанавливаем дополнительное ПО согласно этой инструкции
- Изучаем команды парсера для работы с браузером
- Если парсер уже был ранее настроен без использования браузера, а сейчас перестал работать из-за того, что сайт стал открываться только в современных браузерах (а в IE не работает), то достаточно будет поменять режим загрузки в действии «Загрузить страницу по ссылке» - выбрать режим загрузки Browser