Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Программа как лабиринт, принципа работы по выложенным примерам увы ) не понять нормально, для того чтобы воспользоваться самому. Хочу отметить, так же что она невероятна полезна. Очень прошу мануал на простых примерах. Вида: зайти на страницу, сохранить массив урлов в переменную, подставить в первый элемент массива в урл, скачать его.> в нем уже > Найти массив нужных данных и вывести в эксель каждый элемент массива в отдельную строку.

Уже более 5ти часов, танцев с бубном ))) и результата желаемого ноль ..
ПС. были бы деньги, даже не раздумывая выплатил автору за настройку. Поверьте это обезопасит Вас от нервов.

ок... завтра отпишусь

Тестовый период могу продлить, - напишите мне в Скайп или на почту

с проґраммой справился сам, хотя про\рамированием вообще не занимался... так чуть понятие приобрел ввиду разбора кода html в одной онлайн иґрушке... все бы хорошо... да вот закончился период бесплатно\о пользований... увы :)... очень жаль

Написал вам в личку

Добрый день,
Думаю без Ваших настроек я самостоятельно не справлюсь.
Вот только на сколько возможно реализовать то что мне нужно?
На сайте НН.ru
На главной странице, админ сайта показывает, что в базе сайта находится
Почти 400 тыс компаний работодателей
и почти 325 тыс активных вакансий у данных работодателей
у каждого работодателя есть личный кабинет, в котором отображены все его данные (эл. Почта, адрес, контактный телефон, контактное лицо, список вакансий)
и списки работодателей периодически пополняются.

Так вот. Если я составлю итоговую таблицу, в которую нужно залить все данные из личных кабинетов.
Может ли Ваша программа пройти по всем личным кабинетам данного сайта, и заполнить таблицу актуальными данными?

Сергей, а что вы ожидали увидеть? строки и столбцы?
У меня на сайте выложена НАДСТРОЙКА (плагин) для Excel
а в надстройках нет видимых листов (да и зачем они...)

Лента у вас активна. СПРАВА на ЛЕНТЕ есть пункт НАДСТРОЙКИ
Надо сделать всего один щелчок мышом по слову НАДСТРОЙКИ

PS: Если есть вопросы - звоните в скайп. Ник в скайпе: ExcelVBA.ru

Написал Вам письмо на эл. почту.
Дело в том что файл у меня открылся, но он пуст, хотя макросы запущены
Ни строк, ни столбцов. Лента не активна.
Жду ответ. Лучше на электронку

Здравствуйте, Сергей

Если вы думаете, что достаточно в программе задать адрес сайта, и на выходе получить готовую базу, - так не бывает...

Программа настраивается под конкретный сайт, причем алгоритм сбора данных должны описать вы
(например, заходим на такую-то страницу, видим там список ссылок на профили работодателей,
переходим по каждой из ссылок, и из открывшегося профиля выводим в такой-то столбец то-то, в другой столбец - то-то, и т.д.)
Соответственно, нужен пример результата в виде файла Excel, и описание, как бы вы формировали эту базу, если бы делали это вручную.
Если это предоставите - то можно настроить (при условии, что сайт не имеет ограничения на количество запросов в сутки или с одного компа, - иначе всё сложнее намного)

Скачал Вашу программу, но при открытии файла получил вот такую картинку (макросы активны)

Так и должно быть
Панель инструментов программы, - на ленте Excel на вкладке НАДСТРОЙКИ

Добрый день. Скажите, ваша программа способна вытащить базу данных работодателей из сайта НН.ru
Если да, готов обсудить сотрудничество

2 июля 2014 г. в 07:38 стало доступно обновление программы «Parser» (версия 1.0.3).

Изменения в новой версии программы:

+ упрощено добавление и тестирование действий
+ добавлены новые возможности
- исправлены незначительные ошибки

Рекомендуем обновить программу до последней версии!

Здравствуйте, Алекс.
Да, всё верно по ценам
Звоните в скайп в любое время.
Можете предварительно выслать на почту образцы желаемого результата в виде файла Excel (с описанием, что парсить, и откуда на сайте в какие столбцы подставлять) - если будете заказывать у меня настройку программы.

Добрый день, уважаемый автор!
Интересует ваша программа парсинга с целью постоянного использования.
Правильно я понимаю, что нужно заплатить за саму программу 2 тыс. и плюс 1 тыс. за настройку на каждый сайт? Их уже два в нашей очереди на ожидание. Готов пообщаться через скайп, чтобы разобраться самому или заказать вашу помощь в этом вопросе.

ПРИВЕТСТВУЮ
Меня зовут Михаил
попробовал ваш Парсер сайтов
сам в програмировании чуть выше нуля
когда то бейсйком пользовался
в период службы в Армии - в свободное время на дельфи писали простенькие приложения
сейчас живу и работаю в Дубай
очень понравилс ваш Парсер
скачал его 3 дня назад в тестовом режиме
не могу работать
как только начинаю ковырятся в нем - хочется все бросить и парсить парсить парсить
очень понравилось - давно не было такого душевного подъема от проделанной мысленной работы
со времен студенчества наверное
Огромное спасибо
Не знаю пригодиться мне парсер или нет
но я все равно его хочу купить

Спасибо! Удачи бизнес-модели!

В разделе КОНТАКТЫ на сайте всё указано:
order@excelvba.ru

А какая у вас почта?

А что именно надо парсить?
Какие исходные данные?
В каком виде нужен результат?

Высылайте подробности на почту.
Сделать можно, - возможно даже не этой программой, есть некоторые наработки по AVITO

Здравствуйте, сможете сделать настройки парсер на avito

28 апреля 2014 г. в 03:33 стало доступно обновление программы «Parser» (версия 1.0.0).

Изменения в новой версии программы:

- устранена проблема с зависанием Excel после редактирования настроек парсера
+ добавлены новые возможности

Рекомендуем обновить программу до последней версии!

САМОЙ ВАЖНОЙ и востребованной функцией- является ТОЛЬКО чистый парсинг "донора",а не выбор из столбца!

откуда такая уверенность?
вам, как и мне, каждый месяц поступает по несколько заказов на загрузку данных из интернета?
Наоборот, в большинстве случае, исходные данные берутся из столбца, - например, надо загрузить с сайта свежие цены, по артикулу из заданного столбца.
Не так часто требуется загрузить ВСЕ позиции с сайта.

это должно быть определяющим назначением программы и однозначно ЗАЯВЛЕНО разработчиком!

У меня программа - многофункциональная.
Со временем, она сможет парсить не только сайты, но и разнообразные файлы.
А что должно быть мной заявлено, - извините, но это только мне решать.

Давайте определим круг потребителей и сразу разделим на очкариков и пользователей.

Поверьте, «очкариков» совсем немного.
Большинству нужно готовое решение (а не инструмент), - типа, нажал одну кнопку, и увидел результат.
Вот, собственно, такие решения я и продаю (сам настраивая программу под нужные сайты),
давая пользователю возможность изменять настройки программы (что в какой столбец выводить, по какому столбцу искать, и т.д.)

Сайты доноры как правило имеют категории и под категории своих товаров

как правило?
НЕТ ВООБЩЕ НИКАКИХ ПРАВИЛ при обработке сайтов, - они все разные
Под каждый сайт - своя уникальная настройка. Это с виду сайты могут быть похожи. А структура страницы настолько отличается на разных сайтах, что ни о каких правилах не может быть и речи.

во избежание БАНА по Ip со стороны сервера!

не так много сайтов, которые банят. Это, скорее, исключение, чем правило
К тому же, в программе можно задать интервал (паузу) между запросами.

Я предполагаю что пошаговый диалог будет содержательнее

А вы попробуйте написать техзадание, как это все должно работать... проанализируйте штук 100-200 разных сайтов (я с бОльшим количеством сайтов работал программно, когда писал макросы для сбора данных)
и тогда вы поймете, почему я сделал программу в таком виде

теперь приступлю к попытке с нуля настроится на "донора" и о своих злоключениях и проблемах буду писать не сайте

может, я вам сначала покажу, как это все настраивается?
а то злоключений у вас будет предостаточно (пока нет инструкций, вряд ли вы во всем сразу разберетесь)
А вот когда будете знать, как настраивается моя программа, - тогда другое дело, ваши комментарии будут куда полезнее.

Сейчас ваши попытки выглядят примерно так: «Нашел в поле космический аппарат, знаю, что он предназначен для полетов в космос, пробовал взлететь - не получилось, слишком много на панели всяких кнопок. этот аппарат должен использоваться преимущественно для полетов на Марс (все ведь летают только на Марс), потому должна быть пошаговая инструкция, как туда улететь, причем, инструкция для чайников, не обучавшихся несколько лет пилотированию таких аппаратов. Сейчас я буду пробовать взлететь, тыкая разные кнопки, и попутно рассказывать о своих приключениях»

Хочу предложить автору и читателям разбор полётов в форме диалога.

Кому надо:
Давайте определим круг потребителей и сразу разделим на очкариков и пользователей.
Очкарикам- всегда будет интересен потенциал и возможность покрутить ручками.
Пользователям- готовый функционал и волшебная кнопка.

Что надо:
САМОЙ ВАЖНОЙ и востребованной функцией- является ТОЛЬКО чистый парсинг "донора",а не выбор из столбца!
(кроме прочего это должно быть определяющим назначением программы и однозначно ЗАЯВЛЕНО разработчиком!)
Пользователь должен понимать сбор каких параметров необходимо определить парсеру для загрузки данных изображение, описание, цена итп.

Как надо:
Пользователь должен понимать что прежде необходимо настроить выгрузку данных парсера в подготовленные колонки Excel.
Сайты доноры как правило имеют категории и под категории своих товаров, для этого необходимо во избежании бардака найти конкретную цель для парсинга и определить разумное количество позиций для загрузки, во избежание БАНА по Ip со стороны сервера!

Я предполагаю что пошаговый диалог будет содержательнее, теперь приступлю к попытке с нуля настроится на "донора" и о своих злоключениях и проблемах буду писать не сайте.(по мере загруженности)
Ваши комментарии будут весьма кстати.

Sfera, большое спасибо за обзор моей программы)

Да, настройка программы нетривиальна, и пока я только сам это все настраиваю
(стоимость настройки под конкретный сайт, - от 500 до 1000 рублей)
Что самое интересное, - уже нашлось 2 или 3 человека, кто умудрился настроить программу самостоятельно)
Как они сами разобрались - не представляю...

Справка будет (пока рано, еще функционал не весь готов)
Будет видеоинструкция по настройке, - но, конечно, это все только для продвинутых пользователей
(вряд ли программа когда-нибудь получит интерфейс, понятный новичку, - я не представляю, как такое можно сделать,
чтобы все просто и понятно было, и в то же время была возможность гибкой настройки)

> Пункты настроек имеют дефолтные значения и не понятно можно ли подставлять свои.
там несколько вариантов полей параметров: текстовое поле, выпадающий список с возможностью ввода пользователем (при выделении поля, появляется кнопка выпадающего списка), и выпадающий список с предопределенными значениями (выбор только из 2-3 возможных вариантов)

> Сохранить сделанные настройки оказалось невозможно
странно... если вы не встраивали настройки в файл Excel, то все должно без проблем сохраняться

Лог ошибок будет обязательно, - но позже, в следующих версиях

То, что Excel порой «частично» подвисает, - есть такое дело, это глюк Excel (обойти этот глюк пока не знаю как)
Т.е. можно работать с файлами, закрывать и сохранять их, - все работает, только Excel корректно не закрывается, и ресурсы процессора отъедает (даже если все файлы и надстройки в Excel закрыты, и никакие макросы не работают)

> Продукт формируется с явным креном на платную настройку
Поверьте, мне было бы намного проще, если бы пользователи настраивали парсеры самостоятельно, без моего участия (как происходит это с остальными моими программами).
Но, увы, сделать понятный интерфейс настройки нереально сложно.
Задача моя состояла в том, чтобы избавить себя от рутинной работы по написанию однотипных макросов для сбора данных с сайтов.

PS: Могу вам помочь с настройкой парсера под сайт (показав через TeamViewer, что и как настраивается, на примере вашего сайта)
А вы мне сразу скажете, предназначение каких элементов интерфейса особо непонятно для пользователя (чтобы я сделал программу удобнее)

Система: win 8.1 x64, Excel 2013, gal-art.pl
Мой опыт:
После трех часов ковыряний по вкладкам и подпунктам программы, для себя, кроме прочего, установил следующее- программа разделена на три основные части, первая отвечает за парсинг с сайта донора, вторая за вывод данных в таблицу Excel.
Обе части имеют весомые наборы дефолтных настроек под нужды определяемые пользователем.
Вкладка- загрузка файлов под опыт не попала из-за не внятности назначения.
Так же программа имеет массу дополнительных универсальных возможностей.
В программе предусмотрен очень полезный Режим тестирования для тонкой, пошаговой настройки и проверки работы элементов.

Итог:
Автор заложил в программу весьма мощный инструментарий и поэтому 100% требуются специальные знания вёрстки Html.
Разобраться что к чему, зачем, куда и почему,- под силу только самому автору или очень продвинутому, очкастому юзеру.
Справка по действиям отсутствует и сразу создаст ловушку сделать ошибку в самом начале работы что приведёт в тупик (даже для тестов).
Работу режима тестирования в настройках придумали инопланетяне- явно для издевательства (ОШИБКА: Неверная ссылка для загрузки веб-страницы).
Пункты настроек имеют дефолтные значения и не понятно можно ли подставлять свои.
Отсутствует защита от "дурака"(ошибочных действий пользователя).
При первом парсинге (пункт № 46-Белый говлит браслет) программа заполнила поле Цена значением (01.09.1990.)
Попытка настроить парсинг с сайта http://www.ikea.com/RU/ru/ по выше изложенным причинам естественно провалилась.
Сохранить сделанные настройки оказалось невозможно, по этому делать следующую попытку нет смысла.
Отсутствует лог ошибок.
После закрытия документа gal-art.pl мой Excel 2013- завис окончательно и пришлось применять три весёлых кнопки.

Выводы:
Я давно не выкуривал пачку сигарет за вечер (чего и вам не советую).
Продукт формируется с явным креном на платную настройку и поддержку специалистом что лишает программу универсальности.
На сайте я не увидел такого пользователя, кто смог бы, самостоятельно настроить программу на работу.
Но объективности ради отмечу что, изначально в программа задумана как мощный, универсальный инструмент и находится в стадии разработки.

Будем ждать новых и разных версий и помогать в тестировании.
Надеюсь что автор подойдет к моим исследованиям профессионально и с юмором!

Здравствуйте, Ихтиёр
С системой PPS не знаком.
Позвоните мне в скайп, - обсудим, что надо сделать.

Необходима программа для ввода информации в Excel с листов запроса системы PPS если Вы знакомы с этой системой. Если нет то коротко о нем: На заводе по производству двигателей система выдает листы запроса на принтер в складе через EntenetExplorer на основе этих листов запроса оператор выдает детали для линии сборки двигателей.Затем в ручную вводит информацию о количестве и времени выдачи в Excel файл который последующим архивируется. Необходима программа для импорта данных с этих листов в exsel.

Игорь! Мы с вами общались по поводу разработки макросов для сбора сведений в Exel с площадки Госзакупок. Мы с вами поговорили и вы куда-то пропали? Уже прошло 2 недели.

Здравствуйте, Виталий
Смотря что должно получиться в результате
Программа работает только с Excel - т.е. в Excel можно сформировать таблицу любого вида.
Но мне надо понимать, какие будут исходные данные, и что должно получиться после сбора данных с сайта
Вышлете мне на почту пример в виде файла Excel - тогда скажу.
Или обращайтесь в скайп, - так быстрее будет.

PS: Если моя программа не справится, - всегда можно написать отдельный макрос под вашу задачу.

Мне нужен Парсер ставок с ссылки dns3.betcity.ru /bets/bets2.php?line_id[]=2751
Вашей программой можно это реализовать, чтобы импортировались в Excel или Access? Если да, то как, так как сам разобраться в демо-версии не смог. С Уважением!

Здравствуйте
Вышлите мне на почту пример исходных данных и результата (надо понимать, какую конкретно информацию требуется найти и загрузить)

PS: По вашей теме есть некоторые наработки, - может, что готовое подберем.