- Мониторинг цен конкурентов
- Хиты продаж
- Парсеры файлов XML, DOC, TXT, PDF
- Сайты объявлений
- С видеороликом
- Закупки и торги
- Запчасти
- Игрушки и детские товары
- Инструменты для SEO
- Путешествия / Отели
- Банки, финансы, выписки
- Социальные сети
- Бытовая техника и электроника
- Для изучения парсера
- Одежда и обувь
- Организации и контакты
- Спортивные результаты
- Медицина и косметика
Парсеры для обучения настройке под сайты
В этом разделе опубликованы парсеры с настройками, открытыми для просмотра и редактирования. На их примере, вы можете научиться настраивать программу-парсер под различные задачи.
-
По заданным спискам фамилий, имён и отчеств, сформировать таблицу со всевозможными комбинациями этих значений, чтобы получить список уникальных ФИО
-
Обработать все файлы Excel в заданной папке, и извлечь информацию из определенных ячеек.
Искать в файлах данные не привязываясь к адресам ячеек (структура файлов немного отличается, часть данных смещена) -
Перебрать все файлы в заданной папке, и сформировать таблицу Excel с данными из этих файлов.
-
Получить список файлов в папке, выбираемой пользователем.
Вывести в первый столбец имена файлов с гиперссылками. -
Загрузить данные из выбранного текстового файла (на примере файла html), и вывести результат в таблицу Excel.
-
Обработать несколько типов исходных значений разными способами: какие-то значения проходят все уровни обработки, какие-то - только определенные уровни, а некоторые сразу подаются в вывод на лист.
-
Преобразовать базу формата Word с контактными данными, в таблицу Excel
-
Собрать информацию о всех религиозных учреждениях России и СНГ с сайта prihod.ru
Вывести контактные данные храмов (адреса, телефоны) каждого храма, а также список престольних праздников. -
Извлечь из карточек товаров все варианты опций вида размер+цвет+цена+фото
Данные в коде страницы присутствуют в виде JSON -
При повторных запусках парсера, обновлять данные в ранее сформированной парсером таблице.
Запоминать предыдущую цену, и выводить её в отдельный столбец -
Получить полный список товара интернет-магазина, размещённого на площадке tiu.ru
Настроить автоматическую обработку Google Captcha -
Собрать информацию о товаре, вывести в таблицу название, цвет (каждый цвет в свою строку), описание, размеры, ссылки на фото.
-
Создать таблицу цен на грузоперевозки между городами России,
взяв данные из ПДФ файлов с сайта транспортной компании. -
Сформировать таблицу со списком российского ПО для обоснования необходимости закупки гос.заказчиком иностранного программного обеспечения.
Данные берутся с сайта reestr.minsvyaz.ru -
Перебрать в банковском онлайн-калькуляторе различные варианты сумм и дней для расчета банковских гарантий, получившиеся цифры занести в таблицу, вывести дату и время парсинга.
-
Собрать информацию об управляющих компаниях, входящих в структуру ЖКХ, а также о домах, находящихся в управлении этой компании. При появлении капчи предложить пользователю ввести её (через интерфейс программы) и продолжить скачивание.
-
Спарсить все товары с сайта mario.ua, сформировав описание (столбец 3) из нескольких частей: описания, таблицы характеристик, и видеоролика (если он присутствует на странице)
-
Вывести на лист список разделов и вложенных подразделов сайта ikea.com в виде:
#Ванная[path]http://www.ikea.com/ru/ru/catalog/categories/departments/bathroom/
##Шкафы для раковины[path]http://www.ikea.com/ru/ru/catalog/categories/departments/bathroom/20719/
###Напольные шкафы под раковину[path]http://www.ikea.com/ru/ru/catalog/categories/departments/bathroom/20721/ -
Отслеживать наличие билетов в Алькатрас на сайте alcatrazcruises.com на заданные даты,
и при появлении билетов выслать уведомление на email со вложенным файлом со списком доступных билетов.
Запускать парсер с интервалом 20 минут -
По ссылке на результаты поиска с сайта tophotels.ru, вывести в Excel таблицу с названиями отелей и адресами электронной почты и сайта, для последующей рассылки коммерческих предложений.
-
Имея список поисковых запросов и ссылок на страницы сайта, проверить степень оптимизации страниц
Проверить: наличие каждого из слов запроса в заголовке (title) сайта, длину мета-тега description, наличие ключевых слов и поисковой фразы целиком в тексте статьи, наличие в тексте заданного региона, длину текста страницы и код ответа сервера.
Результат вывести в новый файл с выделением цветом хороших / плохих результатов, и итоговой оценки SEO оптимизации. -
Собрать ассортимент товаров с интернет-магазина одежды. Каждый крупный раздел вывести на свой лист, указать подраздел, название товара, цену и ссылку на картинку.
-
Спарсить товары с сайта jeans40.ru, при этом каждый крупный раздел вывести в отдельную книгу, а каждый подраздел на отдельный лист.
-
Загрузить список товаров, с выводом всех опций (размеров товара) в отдельные строки
Для каждого размера, получить цену (POST-запросом) -
Собрать информацию о товарах с сайта market.jumbi.ru, скачать картинки на жесткий диск, в таблице эксель вывести гиперссылку, чтобы при щелчке открывалась картинка с жесткого диска.
-
Вывести информацию о товарах с сайта - название, размеры, цену, описание, вывести информацию о разделах, в которых находится товар с учетом того, что вложенность разделов может быть разной (см. скриншот).
-
Для каждого объявления необходимо вывести название, адрес и контактные данные автора объявления. Но номер телефона показывается только после post-запроса. В то же время один автор может размещать несколько объявлений на сайте. У каждого автора есть свой уникальный ID, задача - один раз получив контактные данные, более не делать post-запрос по данному автору.
-
Спарсить информацию о товарах с сайта, при этом преобразовать таблицу характеристик с разными артикулами товара (см. скриншот) в отдельные строки выгрузки.
-
Парсер сайта optomoll.ru - оптовый интернет-магазин (одежда, обувь, электроника, спорттовары и т.д.)
Собрать информацию об ассортименте товаров в заданном разделе, вывести название, артикул товара, цену, наличие, ссылку на картинку, раздел и подраздел, а также все характеристики товаров, полный перечень которых нам заранее неизвестен.
-
Преобразовать прайс поставщика в нужный вид, осуществить поиск картинки и описания товара на сайте поставщика по артикулу из исходного прайса.
-
Собрать данные о работе мировых судей из открытого источника - сайт Мировых судей Тульской области - название участка, адрес и телефон, ФИО основных сотрудников, реквизиты государственной пошлины, ссылки на сайт и госпошлину.
-
По списку ссылок (на разные сайты) из заданного столбца, сформировать скриншоты этих страниц (с прокруткой страницы на всю высоту)
Сохранить скриншоты сайтов в папку с именами вида ИмяСайта.jpg -
Спарсить информацию о комплектующих для компьютерной и оргтехники по выбранному бренду с сайта eafsupplychain.com
-
Спарсить контент интернет-магазина odissey.kiev.ua в Excel
Вывести столбцы: Код_товара, Название_позиции, Описание, Цена, Ссылка_изображения, Ссылка на товар, Категория, + столбцы с характеристиками.
Изображения товаров сохранять в папку под именем Код_товара.jpg -
Загрузить данные по ссылкам из первого столбца таблицы, и вывести в таблицу Название раздела, ключевые слова, заголовок, описание, а также вступительный текст (первый абзац)
-
Загрузить с сайта auto24.ee объявления о продаже подержанных автомобилей (выгрузка всех объявлений, или только за последнюю неделю)
Использовать автоматическое распознавание текста с картинки (Captcha) для получения скрытых данных (регистрационный номер авто) -
Выгрузить в Excel данные из выбранного раздела (Одежда, Крупногабаритные товары, Коляски, Игрушки, Текстиль, Аксессуары и косметика, Товары для кормления) сайта dtoshop.ru
Скачать изображения товаров, и сохранить их в папку с именами вида артикул.jpg
В отдельном столбце пометить модификации товара
Свойства товаров вывести в отдельные столбцы -
Получить данные по заданным опционам с сайта cmegroup.com за выбранную неделю.
Результат (с группировкой по опционам, и по типу CALL / PUT) вывести в файл формата CSV.
В результат выводить только следующие значения: Strike;open interest;volume;settle
Страйки, где отсутствуют значения в графах "open interest" и "volume", удаляются. -
Загрузить в Excel все товары с сайта туристических товаров.
Скачать все фото товаров, присвоив им новые имена.
Для ускорения процесса, парсинг должен идти в несколько потоков. -
Не просто скачать весь ассортимент сайта, но также разбить велотовары, у которых несколько вариантов цветов и размеров на несколько строк. Для каждого варианта написать свою цену и наличие товара (т.к. у разных цветов и размеров цена может отличаться).
-
Пройти парсером по списку сайтов, и попытаться найти адрес электронной почты (email) на каждом сайте.
-
Обработать все файлы XML в выбранной папке, и сформировать отчёт в формате Excel (одна строка таблицы Excel соответствует одному XML файлу)
-
Нестандартное применение парсера - автоматическое добавление товаров в корзину поставщика по списку в Экселе с учетом цвета, размера и наличия товара.
-
Обработать все файлы Word в заданной папке, и сформировать новую таблицу Excel с данными из файлов Word из 9 столбцов:
Имя файла, ФИО, Должность, Руководитель, Место, Номинация, Работа, ФИО сотрудника, Должность сотрудника