Загрузить с сайта auto24.ee объявления о продаже подержанных автомобилей (выгрузка всех объявлений, или только за последнюю неделю)
Использовать автоматическое распознавание текста с картинки (Captcha) для получения скрытых данных (регистрационный номер авто)
Внимание: данный парсер использует файнкцию распознавания капчи (через сервис rucaptcha.com) — для использования этой опции необходим аккаунт на сайте rucaptcha.com с ненулевым балансом (хотя бы несколько рублей), - на этом сайте надо получить API ключ, и ввести его в настройки программы-парсера.
Если у вас нет аккаунта на этом сервисе, - парсер будет выводить только часть данных (которая доступна без ввода капчи), и будут вылетать уведомления об ошибках распознавания капчи.
Во вложении - несколько вариантов настроек парсера.
Парсер с названием auto24.ee.xlp выполняет все действия сразу, - получает список объявлений с сайта за неделю, и выводит все необходимые данные
Но, поскольку на 1 распознавание капчи уходит примерно 10-12 секунд, вывод всех данных (2500 объявлений) занимает продолжительное время.
Потому, было решено разбить задачу на 2 этапа (см. парсеры с названиями "1 - неделя", "1 - все" и "2 - данные")
Парсер с меткой 1 ("1 - неделя" или "1 - все") выполняет первую часть задачи, - вывод списка ссылок на объявления (за неделю, или всех объявлений на сайте)
Поскольку этот процесс не требует ввода капчи, и загрузки страниц объявлений, он выполняется очень быстро.
Потом (необязательно) применяется надстройка для подстановки данных, для вставки информации из ранее загруженного файла (если такой есть)
Поскольку большинство объявлений изо дня в день повторяются, — это позволяет существенно сократить время парсинга (подставляются ранее полученные данные)
После этого, в файле остаётся немного (10-20%) строк, для которых данные отсутствуют (новые объявления)
Тут приступает к работе парсер "2 - данные" — он настроен так, чтобоы обрабатывать только строки, где не заполнен столбец «Название автомобиля»
Таким образом, чуточку усложнив задачу (3 нажатия кнопки вместо 1), мы существенно (в 10 раз) ускоряем сбор нужных данных.
Комментарии
Отправить комментарий