- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Действие парсера «HTML: Получить все ссылки пейджера» |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Действие "HTML: Получить все ссылки пейджера" (далее Действие) предназначено для получения всего массива ссылок из "пейджера" - навигационного блока для перехода между страницами результатов вида < предыдущая 1 2 3 ... 155 следующая > . Действие имеет три параметра.
Особенностью Действия является то, что на входе оно может принимать как гиперссылку (в примере выше), так и полный текст страницы (либо кусок html-кода). Т.е. мы получим тот же результат, если предварительно добавим действие Загрузить ИСХОДНЫЙ КОД веб-страницы. Если действию не удается найти ссылки, то возвращается значение зарезервированной переменной %LastUsedURL% (т.е. в случае, если на входе была ссылка на страницу, где не удалось найти страницы пейджера, то эта же ссылка и возвращается). Если Действие правильно находит все ссылки, то указывать параметры нет необходимости. Если ссылки не находятся или формируются неправильно, то в этом случае можно попробовать подобрать нужные параметры. По умолчанию стоит значение "auto". В данном параметре можно указать парсеру, внутри какого тега надо искать ссылки. Зачастую это помогает получить нужный результат. Синтаксис допускает следующие способы указания нужного тега:
В случае, если вы задали HTML-фильтр правильно, во всплывающем информационном блоке появится сообщение с фразой: Применён HTML фильтр ul class=pager Если фильтр задан неправильно, то появится сообщение: Применён HTML фильтр id=pager В случае, если не удается подобрать нужный HTML-фильтр, вы можете предварительно вырезать нужный тег действием HTML: Поиск тегов или текстовыми функциями. Данный параметр указывает парсеру, как выглядит ссылка пейджера. По умолчанию стоит пустое значение, это значит, что парсер пытается подобрать префикс из наиболее распространенных вариантов. Автоматически распознаются следующие варианты: &page=# Если префикс пейджера на обрабатываемой вами странице отличается от вышеприведенных, то запишите его в параметр по аналогии со стандартными вариантами. Если пейджер выглядит, как одна из стандартных ссылок, но Действие всё равно его не находит или формирует неправильные ссылки, попробуйте указать принудительно нужный вариант. Параметр Дополнительные параметры Данный параметр нужен для правильного формирования уже найденного массива ссылок. Если после попыток подбора первых двух параметров Действия массив ссылок всё равно не формируется, редактирование третьего параметра не поможет. Возможно указание одного или нескольких параметров. Если нужно указать несколько параметров, то они объединяются амперсандом (&). min=2 - указывает, с какого числа нужно формировать массив ссылок. Применяется если, например, основная ссылка и page=1 - это одна и та же страница. Или если ссылки находятся, начиная со страницы с №1, а нужна еще страница с №0. max=100 - указывает до какого числа нужно строить массив ссылок. Обратите внимание, массив будет построен до указанного числа, даже если таких страниц на самом деле нет. Это бывает полезным, если не удается определить последнюю страницу. В таком случае создается массив с запасом, а в настройку парсера закладывается остановка, когда он доходит до пустой страницы.
Массив начинается со страницы с №5 и заканчивается на странице №50, хотя такой страницы на момент написания статьи не существует. Также здесь хорошо видно, что массив ссылок по умолчанию начинается с основной ссылки на страницу (%LastUsedURL%). DeleteBaseURL=1 - удаляет ссылку на основную страницу step=1 - указывает шаг в массиве ссылок, в случае если шаг определяется Действием неправильно. shift=+1 - указывает сколько надо добавить (или отнять) от каждого номера страницы в массиве
Данный пример помогает понять, как работает третий параметр Действия. Сначала мы создали массив ссылок от 10-ой до 200-ой страницы с шагом в 25 страниц, затем удалили базовую ссылку (http://excelvba.ru/programmes/Parser) и после этого отняли от каждого номера страницы единицу. Примечания и рекомендации по использованию
В результате вы получите необходимый массив ссылок.
na-sklade?pages=1&p=1 а формируется массив na-sklade?p=1 То в этом случае можно применить действие Заменить часть текста "?p=" на "?pages=1&p="
|
Комментарии
Без всяких доп параметров в этом случае можно использовать действие
Ссылку проверить не удалось, ибо не смог угадать адрес, чтобы ссылка заработала.
подскажите как получить ссылки пейджера на этом сайте https://tgabsolut-shop.ru/catalog/6850/?PAGEN_3=2
Как правильно обрабатывать пейджер вида:
javascript:__doPostBack('p$lt$zoneContainer$pageplaceholder$p$lt$zoneForm$UniPager$pagerElem','1')
Стандартными средствами - не получилось
А нормальной инструкции как через окно IE это сделать не нашел
Оригинал сайта тут https://catalogue.hyve.ru/ru-RU/exhibitorlist.aspx?project_id=480
Заранее спасибо за подсказку
Здравствуйте, Евгений.
В стоимость программы не входят консультации по вопросам настройки парсеров.
Могу настроить под заказ. от 600 руб.
Добрый день!
помогите разобраться с таким пейджером a href="https://www.elektro4000.de/Anlagen-Systemtechnik/Antriebstechnik/Elektromotoren:::6820_6885_8136:2.html" class="pageResults" title="Seite 2">2
ВНИМАНИЕ: По этому действий есть дополнительная инструкция, для каталога сайта с неизвестным количеством страниц результатов:
https://excelvba.ru/programmes/Parser/manuals/setting/procedure/pager/en...
Здравствуйте
Это делается примерно так:
подскажите как получить ссылки пейджера на этом сайте https://www.armeks.ru/store/?group_id=7&pagenum=1
Игорь, спасибо большое!
Ирина, да, через проверку на выполнение условия, на следующем подуровне
(когда на следующем подуровне вы получаете товары со страницы, а результат пустой, - проверяете на условие пусто,
и в случае выполнения условия выбираете опцию «Остановить» с параметром -2, т.е. без выполнения подуровней и без вывода на лист)
Игорь, добрый день! В справке написано, что можно создать массив с запасом и остановить парсер, когда он доходит до пустой страницы. Уточните, пожалуйста, как это можно сделать? Через проверку на выполнение условия? Или есть другой способ?
А как быть если вместо цифр пейджера есть только стрелки вперед или назад или выдает первые 5 страниц