Ответить на комментарий
Действие парсера «Загрузить страницу по ссылке» |
||||||||||||||||
Параметры действия:Предназначение действия:Действие выполняет загрузку страницы по ссылке. Исходным значением является URL страницы. Доступно 5 вариантов загрузки страницы (параметр «Способ загрузки»). Способ загрузки может влиять на содержимое загруженной страницы. Если способ загрузки не задан, используется значение по умолчанию, заданное в настройках парсера на вкладке Дополнительно (подвкладка Разное). Возвращаемое значение: HTML код страницы
Параметр «Способ загрузки»Программа поддерживает несколько способов загрузки страницы: WinHTTP / WinAPI / WinInet — без использования браузера (загружается только html код, скрипты на странице не отрабатывают). Обычно этот вариант намного быстрее и стабильнее, чем вариант с браузером. IE / Browser — загрузка страницы при помощи браузера (загружается не только страница, но и все картинки и прочие данные, на странице отрабатывают js скрипты). В каких случаях имеет смысл применять браузер Если значение параметра не задано, используется способ загрузки, заданный в настройках парсера на вкладке «Дополнительно» - «Разное» (по умолчанию это WinHTTP) Параметр «Кеширование»Определяет, обращается ли парсер к сайту, если эта страница была загружена парсером ранее. В большинстве случаев (99%), этот параметр изменять не требуется Если значение параметра не задано, используется параметр «Кеширование для загружаемых веб-страниц», заданный в настройках парсера на вкладке «Дополнительно» - «Параметры» (по умолчанию кеширование страниц отключено) Параметр «URL (вместо исходного значения)»Позволяет задать URL для загрузки, не изменяя текущее значение (на входе действия) Этот параметр обычно указывается только в самом первом действии в парсере, если мы парсим сайт целиком, — когда мы загружаем стартовую страницу каталога, ссылка на которую не изменяется (хотя, как вариант, можно оставить этот параметр пустым, и указать ссылку в поле «Исходное значение» на вкладке «Исходные данные»)
Параметр «Дополнительные опции»В большинстве случаев этот параметр изменять не требуется (оставьте это поле пустым). Поддерживаются следующие опции: encoding:"кодировка" — позволяет принудительно указать парсеру на кодировку ответа сервера. В 99.8% случаев парсер сам корректно определяет используемую кодировку, основываясь на заголовках ответа сервера, но иногда может потребоваться принудительно указать кодировку utf-8 ie-page-mask:"маска" — применяется только при способе загрузки «IE», и задаёт маску текста, появления которого на странице будет ждать браузер IE. Используется, когда скрипты догружают данные на страницу с задержкой, и парсер должен ожидать, пока все скрипты не закончат работу (например, скрипт подгружает актуальную цену и наличие отдельными запросами уже после того, как страница загрузилась). Маска обычно имеет вид *SomeText*, где SomeText - слово или фраза, которые появляются на странице только после завершения работу скриптов в браузере. pager: "маска пейджера" — позволяет загрузить по заданному URL не одну эту страницу, а все страницы результатов (программа найдет ссылки пейджера по заданной маске, и прогрузит их все). Результатом действия в этом случае будет МАССИВ значений (сколько страниц пейджера программа найдет, столько элементов и будет в массиве) browser-wait: параметр=значение — используются только при способе загрузки Browser, для указания парсеру, какой из способов ожидания данных на странице нужно использовать.
Примеры использования:
|