- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Действие парсера «Загрузить ИСХОДНЫЙ КОД веб-страницы» |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Действие "Загрузить ИСХОДНЫЙ КОД веб-страницы" (далее - Действие) является одним из основных действий программы, при помощи которого можно получить html код страницы на подавляющем большинстве сайтов.ВНИМАНИЕ: это действие устарело, и не рекомендуется к использованию. Ему на смену пришло действие «Загрузить страницу по ссылке», которое имеет все те же возможности, но позволяет использовать 4 варианта загрузки страницы вместо 2 вариантов в старой версии
Действие имеет 3 параметра:
Параметр URL (ссылка на веб-страницу)Действие может принимать в качестве исходного значения ссылку или массив ссылок. В случае, если первый параметр заполнен, то обрабатывается ссылка из параметра. В первый параметр также можно вставлять ссылку на переменную вида %ИмяПеременной% Ссылки должны быть полными, т.е. начинаться с http. Если адрес указан неверно, программа выдаст стандартное сообщение об ошибке: "ОШИБКА: Неверная ссылка для загрузки веб-страницы"
Параметр Кодировка веб-страницыКодировка страницы по умолчанию определяется автоматически (второй параметр пустой), но если вдруг кодировка определена неверно, или на разных компьютерах определяется по-разному, можно указать кодировку принудительно во втором параметре. Опция второго параметра "direct" (загрузка страницы без использования компонента WinHTTPRequest) применяется в исключительных случаях, когда не удается загрузить страницу обычным способом или когда не удается вывести страницу в нормальной кодировке при помощи других опций второго параметра (UTF-8, Windows-1251).
Параметр Загружать все страницы результатовИспользование третьего параметра Действия является хорошей альтернативой стандартной схеме настройке парсера (Загрузить исходный код - Получить все ссылки пейджера - Загрузить каждую страницу пейджера отдельно). Если указать в третьем параметре префикс пейджера (в примере ниже это "page"), то действие сразу загрузит все страницы пейджера. Данный способ работает не на всех сайтах! Это удобно применять, когда сайт не показывает, какая страница пейджера является последней (например, показана возможность перехода только на 3 страницы, а на самом деле их 10, и последующие страницы появляются только при переходе на 3 страницу). А также в случаях, когда надо обработать сразу все страницы (например, для последующей многопоточной загрузки). Особенностью использования 3 параметра является то, что на некоторых сайтах может быть дважды загружена первая страница. В этом случае параметр указывается в виде "page=1", с указанием страницы, с которой надо начинать. Если вам попался такой сайт, то рекомендуется также проверить, как будут загружаться страницы без пейджера. На некоторых сайтах они могут не загрузиться вообще, тогда этот способ не подходит. В случае, если 3 параметр не срабатывает, попробуйте предварительно дописать к исходному значению текст пейджера: http://excelvba.ru/programmes/Parser/samples?page=0 Данный параметр не рекомендуется применять, если количество страниц очень большое, а сами страницы довольно объемные - это может привести к значительной нагрузке на компьютер и существенному замедлению работы программы.
Примечания и рекомендации по использованиюЕсли Действие возвращает пустое значение:
Если Действие возвращает значение, но в нем нет необходимого кода:
Примечание: имейте ввиду, что когда включена опция "Включить кеширование для загружаемых веб-страниц", после первой загрузки будет браться всегда одна и та же сохраненная копия html кода. Более подробно см. раздел справки "Кеширование"
|
Комментарии
Владимир, так вы не грузите главную страницу, - в её коде все равно нет никаких данных.
Да и не загрузится она, - там защита на сайте. Сайт даже в IE не открывается.
Смотрите какие запросы выполняет браузер, обращаясь по API к сайту, и выполняйте такие же запросы.
Например, курсы конвертации можно загрузить по такой прямой ссылке:
https://api2.nicehash.com/main/api/v2/exchangeRate/list
Добрый день. Тестирую пока парсер. С большинством сайтов работает отлично, а вот с https://www.nicehash.com/pricing не получается у меня((. Парсер загружает 1147 символов и всё…
В хроме, при просмотре кода видна вся иерархия. Подскажите где копать, пожалуйста.
Перед загрузкой страницы добавьте отдельное действие для сохранения в переменную
Здравствуйте, как Параметр URL сразу же записать в переменную?
Добрый день!
В программе не нашёл набора действий Parser_Start.
Максим, этот сайт весь на скриптах, там повозиться надо, чтобы получить данные.
Смотрите вторую видеоинструкцию, про POST запросы
Добрый день!
Как парсить данные с сайта с aspx
При попытке загрузить по аналогии с видео инструкцией знаечение при тестах выдается не то что при просмотре кода на странице.
Пробую сайт https://bankrot.fedresurs.ru/SroList.aspx