- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Действие парсера «HTML: Рекурсивный поиск страниц» |
||||||||||||||||||||||||||||||||
Действие предназначено для получения списка URL страниц в многоуровневом каталоге сайта.Например, у нас есть URL страницы раздела сайта, на которой присутствуют ссылки на подкатегории, а в подкатегориях есть еще вложенные категории. Это действие прогрузит текущую страницу (исходное значение - URL стартовой страницы), и найдет на ней все ссылки по маске «Шаблоны для обрабатываемых ссылок», исключив ссылки, соответствующие маске «Шаблоны для исключаемых ссылок». Область поиска по умолчанию - вся страница, но можно сузить обрасть поиска, задав «HTML фильтры для области поиска» (например, div class=category-items) На выходе действия - массив ссылок на найденные страницы. Действие имеет 7 параметров:
Рассмотрим работу действия на примереДопустим, у нас есть такая ссылка на раздел сайта, где есть несколько подразделов разного уровня вложенности.
Таким образом, одним действием, мы перебрали десятки страниц разной степени вложенности, и нашли там 43 страницы с товарами, которые будем парсить на следующем подуровне. В параметрах мы указали:
Ищем ссылки, содержащие в URL слово catalog/
Ищем не на всей странице (где сотни ссылок на всякие разные разделы каталога), а только внутри тега div класса category-items-desktop (именно внутри него выводятся ссылки на подразделы)
Текст catalog-items-list встречается в HTML коде страницы со списком товаров, но не встречается в HTML коде страниц с подразделами. Так мы оставляем в результате только те страницы, которые мы будем потом перебирать в поисках товаров.
Конкретно с этим сайтом, прямая загрузка страниц (direct) или загрузка сжатых страниц (gzip) работает заметно быстрее обычной.
В процессе тестирования этого действия (а тестирование может занять много времени, если глубина каталога большая, и парсеру требуется прогрузить десятки или сотни страниц) в окно результатов действия выводится информация о процессе обработки страниц, выглядящая примерно так: Обработано 1 / 0, страница http.../noutbuki-i-planshety/ Обработано 2 / 0, страница http.../noutbuki-i-akssesuary/ Обработано 3 / 0, страница http.../noutbuki/ Обработано 4 / 1, страница http.../netbuki/ Обработано 5 / 2, страница http.../ultrabuki/ Обработано 6 / 3, страница http.../noutbuki-transformery/ Обработано 7 / 4, страница http.../igrovye-noutbuki-/ Обработано 8 / 5, страница http.../komplektuyushhie-dlya-noutbukov/ Обработано 9 / 5, страница http.../ssd-nakopiteli/ Здесь мы видим, какие страницы и в каком порядке загружаются.
|
Комментарии
Значит, что-то не так настроили
Могу настроить под заказ
с этим сайтом http://grass.spb.ru
брал для поиска ul class="cat-subcat"
нужные li class=""
выдает ошибку сценариев, долго зависает, в итоге пустое значение..
перепробовал с кавычками и без, другие теги брал, не получается (