Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция по настройке парсера сайтов для формирования прайса с интернета-магазина:

 

Дополнительная видеоинструкция: загрузка страниц и авторизация на сайте

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 1500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (2500 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Комментарии

Добрый день!
1. Уточните, когда появится внятное руководство с точечными примерами использования по каждой функции? На текущий момент не понятно предназначение 2/3 функционала парсера и возможностей его использования. Обращаться каждый раз по скайпу не всегда удобно.
2. Обновления вида: "+ добавлены новые действия" также неинформативны. Прошу хотя бы кратко пояснять список функций и их предназначение.

Спасибо

25 октября 2014 г. в 08:03 стало доступно обновление программы «Parser» (версия 1.0.8).

Изменения в новой версии программы:

+ реализован функционал таблиц замены
+ добавлены новые действия

Рекомендуем обновить программу до последней версии!

Пришлите, пож, мне на почту письмо для дальнейшего общения.

Насчёт сайта Росаккредитации, - да, можно
Загружаться только долго будет (12180 + 120000 = 132 тысячи запросов)
Но ничего невозможного нет
Стоимость настройки - 1500 рублей + стоимость лицензии 2500 рублей
Итого, 4000 рублей за готовое решение

Предлагаю разбить задачу на 2 части: сначала (первое нажатие кнопки) формирует таблицу из 120 тыс строк,
а потом (второе нажатие кнопки) догружает адреса и телефоны в имеющиеся строки
Это позволит останавливать второй этап (где 120 тыс страниц надо прогрузить), и потом продолжать с места остановки.

Добрый день! Есть сайт Росаккредитации, на нем реестры. Необходимо пройти по ссылке интересующего реестра (например, http://public.fsa.gov.ru/table_rss_pub_ts/), нажать на нем кнопку поиск. Результат >120 тыс записей, выводимых по 50 максимум. Задача: скопировать выводимую информацию (она уже в табличной форме) И!! пройти по каждой ссылке и вытащить дополнительную информацию (адрес, телефон) и подставить в эту же строку. Можно ли это провернуть силами данного макроса? Если да, сколько будет стоить адаптация под мою задачу?

Здравствуйте
Моя программа не копирует данные на другой сайт
Программа может скачать нужные вам данные, и вставить в таблицу Excel
И файлы сохранить под заданными именами (для каждого товара)

Соответственно, вы получаете таблицу Excel (для последующего импорта на сайт),
и папку с картинками (для последующей заливки на сайт по FTP)

Чтобы ответить, можно или нет настроить, - мне нужен пример результата в виде файла Excel (именно в том виде, какой вам нужен для сайта)
Ну и объяснения, где на каждом из сайтов взять данные для каждого столбца.

С конкретно этими сайтами - никаких сложностей быть не должно, парсер можно настроить почти под любой сайт.
Главное, чтобы вы могли объяснить, что с какого сайта брать, и в каком виде выводить.

Добрый день!

Есть 3 сайта:
http://www.karcher.ru /ru/Products.htm
http://www.grass.su /product2
http://www.tork.ru /produkty/philtr/?c=Air_freshener

Ваш скрипт может скопировать продукцию (полностью с картинками, описанием, характеристиками и т.д.). Необходимо для переноса на битрикс.

Можете ответить на указанный e-mail.

Спасибо!

Спасибо за информацию, пришлите тестовое письмо мне на электронку.

По сайту spb.arendator.ru - да, можно настроить
По картинкам - нужны все, или только первая?
Категорию объекта (офисное/торговое/складское) - в отдельный столбец выводить,
или разные категории на отдельные листы помещать?

с последующей возможностью обновления

Программа грузит все данные с сайта «с нуля»
Т.е. нажали кнопку, - не старая таблица обновляется, а новая формируется.

Сроки - примерно 1-2 дня (обычно настраиваю в день обращения)
По цене: стоимость лицензии 2000 руб + стоимость настройки около 2000 руб
Итого, 4 т.р. за готовое решение

От вас нужен пример результата в файле Excel (строка заголовка + 1 строка с данными)

Добрый день.
Цель - с ресурса spb.arendator.ru раздел "Объекты" перенести информацию о офисных, торговых и складских объектах в excel с последующей возможностью обновления.
Нужная информация по колонкам в excel
1.фото
2.название объекта
3.адрес объекта
4.общая площадь
5.назначение помещений
6.арендная площадь
7.класс (пример A+ A B B+)
8.этажность
9.остальное можно в доп.информацию
Вопрос реализуемо ли?
Цена? Сроки?
Заранее спасибо.

Пока примеров опубликовано очень мало, - на очереди к публикации около 30 примеров самых разных.
Вы лучше позвоните мне в скайп завтра днём, - я вам покажу, как что настраивать, на примере нужного вам сайта
От вас для этого надо: http://ExcelVBA.ru/help

Как раз то, что я искал. Но одна проблемка - не работает. Взял ваш первый пример, удалил данные с 20 строк выделил эти строки и запустил задачу. Ссылки заполнены в 19 строках, цена и количество в 6, название и описание не заполнено ни в одной строке. В настройках пробую тестировать, пишет такой результат "ОШИБКА: Неверная ссылка для загрузки веб-страницы"

Здравствуйте
Примеры будут (их очень много накопилось) - пока не доработал движок сайта для из быстрой публикации

Могу на вашем компе показать, что как настраивается (на примере ваших данных), - но только после 24 сентября (я сейчас в отпуске)
Ограничение количества запусков - не проблема, решим это всё. Напишите мне в скайп после 24 сентября

Здравствуйте.
Выложите пожалуйста самый простой пример для настройки программы.
Например имееются URL ссылки в столбце A таблицы
http://excelvba.ru/programmes/Parser?page=1
http://excelvba.ru/programmes/Parser
, в столбец B,C и далее, в зависимости от результата нужно занести информацию об авторе комментария со сканируемой страницы:
CodePublisher| администратора сайта| Юлия
администратора сайта|Sfera|Ихтиёр
и т.д
Количество бесплатных запусков заканчивается, разобраться не смог, поэтому и решение о покупке не могу принять. Спасибо.

2 сентября 2014 г. в 07:35 стало доступно обновление программы «Parser» (версия 1.0.6).

Изменения в новой версии программы:

+ реализован вывод массива значений в несколько столбцов с заданным шагом
(например: Поставщик1 | Цена1 | Поставщик2 | Цена 2 и т.д.)

+ программа может использовать веб-запросы, для ускорения загрузки данных
(таблица целиком переносится на временный лист Excel, при необходимости выполняется фильтрация строк, потом нужные столбцы переносятся в ваш файл)

+ добавлены новые действия (программное создание и сохранение книги, добавление новых листов, и т.п.)

Рекомендуем обновить программу до последней версии!

Здравствуйте, Инна
Скачать недостаточно, - самое сложное это настроить программу под конкретный сайт

Обычно настройку выполняю я сам (стоимость настройки под один сайт - около 1000 руб)
+ стоимость лицензии на программу 2000 руб

Итого, в среднем, готовое решение (нажали одну кнопку - получили нужный результат в Excel) обходится в 3000 руб
Насчет настройки, - можете обратиться ко мне на почту или в скайп,
выслав пример желаемого результата в виде файла Excel, и описав, с какого сайта какие данные нужно брать.

Здравствуйте! Заинтересовала программа. Какие мои дальнейшие действия и траты? Скачала парсер. Обычный файл эксель. Жду ответа.

8 августа 2014 г. в 07:42 стало доступно обновление программы «Parser» (версия 1.0.5).

Изменения в новой версии программы:

+ добавлена возможность использования значений из произвольных ячеек в настройках парсера
+ реализован останов и вывод сообщений при выполнении заданного условия
+ появилась возможность вывода результата в новый файл Excel
+ добавлена возможность загружать страницы через браузер Internet Explorer

Рекомендуем обновить программу до последней версии!

Здравствуйте, Юлия
Понимать в Excel, а тем более в программировании, ничего не надо.
Настройку парсера осуществляю я сам (около 1000 рублей за каждый новый сайт),
вам останется только нажать одну кнопку «Начать загрузку данных» на ленте Excel

PS: Программа настраивается под конкретные сайты. Настроить сбор контактов с произвольных сайтов - не получится.

Д.День! Подскажите, если я слаба в екселе и совсем ничего не понимаю в програмировании, могу ли я освоить эту программу? мне она необходима чтобы вытаскивать контакты с сайтов

Спасибо,

Огромное спасибо за помощь и объяснения. Рекомендую всем Ваш продукт и Вас. С похожими задачами - спустя две недели, прорекламирую Вас. Человек 40+ гарантирую.
Еще раз благодарю за объяснения.

Сергей, инструкция скоро будет
(уже накоплены десятки готовых настроек под разные сайты, - пока еще не реализовал автоматическую их публикацию на сайте)
Просто даже с видеоинструкцией не факт что получится разобраться, - уж слишком сайты разные

Могу вам показать на примере конкретного сайта, что как работает (объяснить принцип работы с программой)
От вас для этого надо: http://ExcelVBA.ru/help

PS: а если денег нет на покупку лицензии, - смысл настраивать программу? TRIAL-период когда закончится, - работать ведь парсер не будет...

Программа как лабиринт, принципа работы по выложенным примерам увы ) не понять нормально, для того чтобы воспользоваться самому. Хочу отметить, так же что она невероятна полезна. Очень прошу мануал на простых примерах. Вида: зайти на страницу, сохранить массив урлов в переменную, подставить в первый элемент массива в урл, скачать его.> в нем уже > Найти массив нужных данных и вывести в эксель каждый элемент массива в отдельную строку.

Уже более 5ти часов, танцев с бубном ))) и результата желаемого ноль ..
ПС. были бы деньги, даже не раздумывая выплатил автору за настройку. Поверьте это обезопасит Вас от нервов.

ок... завтра отпишусь

Тестовый период могу продлить, - напишите мне в Скайп или на почту

с проґраммой справился сам, хотя про\рамированием вообще не занимался... так чуть понятие приобрел ввиду разбора кода html в одной онлайн иґрушке... все бы хорошо... да вот закончился период бесплатно\о пользований... увы :)... очень жаль

Написал вам в личку

Добрый день,
Думаю без Ваших настроек я самостоятельно не справлюсь.
Вот только на сколько возможно реализовать то что мне нужно?
На сайте НН.ru
На главной странице, админ сайта показывает, что в базе сайта находится
Почти 400 тыс компаний работодателей
и почти 325 тыс активных вакансий у данных работодателей
у каждого работодателя есть личный кабинет, в котором отображены все его данные (эл. Почта, адрес, контактный телефон, контактное лицо, список вакансий)
и списки работодателей периодически пополняются.

Так вот. Если я составлю итоговую таблицу, в которую нужно залить все данные из личных кабинетов.
Может ли Ваша программа пройти по всем личным кабинетам данного сайта, и заполнить таблицу актуальными данными?

Сергей, а что вы ожидали увидеть? строки и столбцы?
У меня на сайте выложена НАДСТРОЙКА (плагин) для Excel
а в надстройках нет видимых листов (да и зачем они...)

Лента у вас активна. СПРАВА на ЛЕНТЕ есть пункт НАДСТРОЙКИ
Надо сделать всего один щелчок мышом по слову НАДСТРОЙКИ

PS: Если есть вопросы - звоните в скайп. Ник в скайпе: ExcelVBA.ru

Написал Вам письмо на эл. почту.
Дело в том что файл у меня открылся, но он пуст, хотя макросы запущены
Ни строк, ни столбцов. Лента не активна.
Жду ответ. Лучше на электронку

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
 __        __                    _   _____   _     
\ \ / / __ __ ___ | | |___ / | |__
\ \ /\ / / \ \/ / / __| _ | | |_ \ | '_ \
\ V V / > < | (__ | |_| | ___) | | |_) |
\_/\_/ /_/\_\ \___| \___/ |____/ |_.__/
Введите код, изображенный в стиле ASCII-арт.