- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Действие парсера «HTML: Многопоточная загрузка» |
||||||||||||||||||||||||||||||||||||||||||
Действие "HTML: Многопоточная загрузка" (далее Действие) предназначено для загрузки массива ссылок в несколько потоков с целью уменьшения времени загрузки. Как изображено на рисунке, Действие одновременно загружает несколько страниц, а не по очереди, как в случае обычной загрузки. Многопоточная загрузка работает не для всех сайтов. Если на сайте есть ограничение доступа при множественных запросах, то вы не получите нужный массив страниц. Скорее всего, вы получите несколько загруженных страниц, а остальные будут либо пустыми, либо с сообщениями об ограничении доступа. Более того, некоторые сайты могут заблокировать вам доступ на какое-то время или даже навсегда. Используйте данное действие на свой страх и риск! На входе Действие может принимать как массив ссылок, так и отдельную ссылку, но в последнем случае существенных отличий от применения действия "Загрузить ИСХОДНЫЙ КОД веб-страницы" мы не получим. Таким образом, в отличие от стандартной схемы настройки парсера, когда ссылку на каждую страницу мы передаем на следующий подуровень исходных действий, при применении Действия, его не надо переносить на следующий подуровень, оно должно находиться на том же уровне, на котором извлекается массив ссылок. Пример использования:
Если вместо многопоточной загрузки в данном примере подставить "Загрузить ИСХОДНЫЙ КОД веб-страницы", то результат будет тот же самый - массив из 39 страниц. Но время загрузки данного примера для многопоточного варианта: 10 секунд, а время для однопоточной загрузки - 37 секунд. Скорость работы увеличивается почти в 4 раза. Действие имеет 3 параметра:
Во время работы Действия появляется дополнительный прогресс бар, который отображает информацию о многопоточной загрузке - какое количество ссылок загружается, во сколько потоков, какой прогресс действия (может отображаться с задержкой или же вообще прогресс не будет отображаться из-за большой загрузки компьютера). Индикатор загрузки может быть трех цветов:
Если необходимо получить URL загружаемой страницы, то при применении Действия специально для этого в HTML-код страницы добавляется тег <info>. Находится он или перед тегом </head>, или в случае, если применяется HTML фильтр, перед найденным тегом, т.е. в самом начале полученного кода. <info id='parser multithreading' status='200' encoding='utf-8' href='https://www.olx.ua/obyavlenie/prodam-slavutu-IDvqoOC.html'></info> При выводе на лист его можно найти при помощи действия HTML: Поиск тегов Status в данном случае обозначает код состояния HTTP.
|
Комментарии
А почему при использовании "Многопоточной загрузки" загрузка страниц происходит не через прокси?
Как можно сделать загрузку многопоточной с прокси?