- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
Где хранятся файлы кеша
- Управление кешированием
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Где хранятся файлы кеша |
При включении опции кеширования страниц, парсер начинает сохранять результаты запросов к сайту в текстовые файлы.
Для этих файлов программа создаёт отдельную папку с названием ParserCache в папке пользователя (C:\Users\<ИмяПользователя>\AppData\Roaming\), а в ней — отдельные подпапки для каждого парсера:
C:\Users\<ИмяПользователя>\AppData\Roaming
ParserCache (общая папка кеша для всех парсеров)
excelvba.ru (кеш парсера с названием «excelvba.ru»)
https›excelvba.ru›programmes›Parser.IE.html
https›excelvba.ru›programmes›Parser.WinAPI.html
https›excelvba.ru›programmes›Parser.WinHTTP.html
https›excelvba.ru›programmes›Parser.WinINET.html
diantel.ru (кеш парсера с названием «diantel.ru»)
HTML(direct)=diantel.ru›adapters›com-kline›.txt
HTML(direct)=diantel.ru›adapters›usb-kline›.txt
HTML(direct)=diantel.ru›mscan-eds-24›mscan-eds-24›.txt
HTML(direct)=diantel.ru›openbox›openbox›.txt
Для открытия общей для всех кешей папки ParserCache нажмите Пуск - Выполнить (или комбинацию клавиш Win + R), введите команду %AppData%/ParserCache и нажмите Enter
Для открытия папки с кешем конкретного парсера, зайдите в настройки парсера, и на вкладке Дополнительно (подвкладка Параметры) нажмите кнопку Открыть папку с кешем
Имена файлов имеют вид
Ссылка.СпособЗагрузки.html или Ссылка»ПараметрыЗапроса.СпособЗагрузки.html
например
Имя файла в папке кеша | URL кешированной страницы | Способ загрузки |
---|---|---|
https›excelvba.ru›programmes›Parser.WinAPI.html | https://excelvba.ru/programmes/Parser | WinAPI |
https›excelvba.ru›programmes»page=2.WinINET.html | https://excelvba.ru/programmes?page=2 | WinINET |
Для очистки папки с кешем конкретного парсера (удаления всех файлов кеша), зайдите в настройки парсера, и на вкладке Дополнительно (подвкладка Параметры) нажмите кнопку Очистить кеш
Содержимое файлов может быть разным (текст, json, html), но обычно это html. Поскольку файлы кеша имеют расширение .html, их можно открывать двойным щелчком, чтобы посмотреть в браузере, как видит парсер страницы сайта.
При кешировании страниц, загруженных методом WinHTTP, в конец HTML добавляется дополнительный служебный тег, в котором хранятся заголовки ответа сервера:
- Добавить комментарий
- 757 просмотров