Статья является примером использования программы «Парсер сайтов и файлов» для сбора данных с веб-страниц

Инструкция по добавлению файла настроек в программу

Парсер сайта Olx.ua (сайт рекламных объявлений)

Задача: 

Организовать сбор информации с одного из крупнейших сайтов частных объявлений Украины - Olx.ua

ВложениеРазмерЗагрузкиПоследняя загрузка
Образец выгрузки с сайта olx.ua в формате Excel92.52 КБ0Ещё не загружался
настройки парсера Olx.ua14.25 КБ12266 часов 48 минут назад
Описание: 

Парсер по ключевому слову, заданному в исходных данных (в примерах это 2 ключевых слова - "собака" и "автомобиль"), находит список всех объявлений по всей Украине, заходит в каждое объявление на первых двух страницах поиска и выводит в лист эксель информацию, содержащуюся в объявление:

  • название объявления
  • описание объявления
  • тип товара (новый, б/у - применимо не ко всем товарам)
  • дата объявления
  • цена
  • валюта
  • количество просмотров
  • город
  • номер телефона

Номера телефонов на сайте Olx.ua защищены от парсинга. Скорость скачивания данных с телефонами очень низкая. Сервер не показывает больше определенного количества за единицу времени, поэтому сбор больших объемов с телефонами данной настройкой невозможен.

Также на лист выводится гиперссылка на само объявление, на поисковую страницу по данному запросу и информация о самом запросе.

В процессе работы парсер сверяется с уже выведенными данными и не выводит дубли объявлений на лист (если гиперссылка на объявление уже есть на листе, то повторно это объявление выводиться не будет).

Данный парсер может быть доработан под Ваши потребности. Например:

  1. выводить дополнительные поля/столбцы в выгрузку (например, объявление от частного лица или от юридического, или имя контактного лица),
  2. осуществлять поиск не по всей Украине, а в отдельных областях (и в целом воссоздавать работу фильтров на сайте olx.ua, ограничивать минимальную и максимальную стоимость товара, указывать нужную рубрику и т.д.)
  3. выгружать картинки объявления (от 1-ой до всех доступных), в том числе с переименованием фотографий по нужной Вам маске.

Для приобретения полной версии настройки этого парсера, обращайтесь на почту, с указанием ссылки на эту статью.

Комментарии

Настройку пришлось немного подкорректировать, т.к. другая страна.

Отправил Вам образец выгрузки (сто строк) на почту.

Можете показать на примере?

http://olx.pl/motoryzacja/czesci-samochodowe/oswietlenie/warszawa/?search[private_business]=private&search[dist]=5&view=list

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
     _       ___    _                               
/ \ ( _ ) | |__ _ _ __ __ ___
/ _ \ / _ \ | '_ \ | | | | \ \ /\ / / / _ \
/ ___ \ | (_) | | |_) | | |_| | \ V V / | __/
/_/ \_\ \___/ |_.__/ \__,_| \_/\_/ \___|
Введите код, изображенный в стиле ASCII-арт.