Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2000 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (3300 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

ПРИВЕТСТВУЮ
Меня зовут Михаил
попробовал ваш Парсер сайтов
сам в програмировании чуть выше нуля
когда то бейсйком пользовался
в период службы в Армии - в свободное время на дельфи писали простенькие приложения
сейчас живу и работаю в Дубай
очень понравилс ваш Парсер
скачал его 3 дня назад в тестовом режиме
не могу работать
как только начинаю ковырятся в нем - хочется все бросить и парсить парсить парсить
очень понравилось - давно не было такого душевного подъема от проделанной мысленной работы
со времен студенчества наверное
Огромное спасибо
Не знаю пригодиться мне парсер или нет
но я все равно его хочу купить

Спасибо! Удачи бизнес-модели!

В разделе КОНТАКТЫ на сайте всё указано:
order@excelvba.ru

А какая у вас почта?

А что именно надо парсить?
Какие исходные данные?
В каком виде нужен результат?

Высылайте подробности на почту.
Сделать можно, - возможно даже не этой программой, есть некоторые наработки по AVITO

Здравствуйте, сможете сделать настройки парсер на avito

28 апреля 2014 г. в 03:33 стало доступно обновление программы «Parser» (версия 1.0.0).

Изменения в новой версии программы:

- устранена проблема с зависанием Excel после редактирования настроек парсера
+ добавлены новые возможности

Рекомендуем обновить программу до последней версии!

САМОЙ ВАЖНОЙ и востребованной функцией- является ТОЛЬКО чистый парсинг "донора",а не выбор из столбца!

откуда такая уверенность?
вам, как и мне, каждый месяц поступает по несколько заказов на загрузку данных из интернета?
Наоборот, в большинстве случае, исходные данные берутся из столбца, - например, надо загрузить с сайта свежие цены, по артикулу из заданного столбца.
Не так часто требуется загрузить ВСЕ позиции с сайта.

это должно быть определяющим назначением программы и однозначно ЗАЯВЛЕНО разработчиком!

У меня программа - многофункциональная.
Со временем, она сможет парсить не только сайты, но и разнообразные файлы.
А что должно быть мной заявлено, - извините, но это только мне решать.

Давайте определим круг потребителей и сразу разделим на очкариков и пользователей.

Поверьте, «очкариков» совсем немного.
Большинству нужно готовое решение (а не инструмент), - типа, нажал одну кнопку, и увидел результат.
Вот, собственно, такие решения я и продаю (сам настраивая программу под нужные сайты),
давая пользователю возможность изменять настройки программы (что в какой столбец выводить, по какому столбцу искать, и т.д.)

Сайты доноры как правило имеют категории и под категории своих товаров

как правило?
НЕТ ВООБЩЕ НИКАКИХ ПРАВИЛ при обработке сайтов, - они все разные
Под каждый сайт - своя уникальная настройка. Это с виду сайты могут быть похожи. А структура страницы настолько отличается на разных сайтах, что ни о каких правилах не может быть и речи.

во избежание БАНА по Ip со стороны сервера!

не так много сайтов, которые банят. Это, скорее, исключение, чем правило
К тому же, в программе можно задать интервал (паузу) между запросами.

Я предполагаю что пошаговый диалог будет содержательнее

А вы попробуйте написать техзадание, как это все должно работать... проанализируйте штук 100-200 разных сайтов (я с бОльшим количеством сайтов работал программно, когда писал макросы для сбора данных)
и тогда вы поймете, почему я сделал программу в таком виде

теперь приступлю к попытке с нуля настроится на "донора" и о своих злоключениях и проблемах буду писать не сайте

может, я вам сначала покажу, как это все настраивается?
а то злоключений у вас будет предостаточно (пока нет инструкций, вряд ли вы во всем сразу разберетесь)
А вот когда будете знать, как настраивается моя программа, - тогда другое дело, ваши комментарии будут куда полезнее.

Сейчас ваши попытки выглядят примерно так: «Нашел в поле космический аппарат, знаю, что он предназначен для полетов в космос, пробовал взлететь - не получилось, слишком много на панели всяких кнопок. этот аппарат должен использоваться преимущественно для полетов на Марс (все ведь летают только на Марс), потому должна быть пошаговая инструкция, как туда улететь, причем, инструкция для чайников, не обучавшихся несколько лет пилотированию таких аппаратов. Сейчас я буду пробовать взлететь, тыкая разные кнопки, и попутно рассказывать о своих приключениях»

Хочу предложить автору и читателям разбор полётов в форме диалога.

Кому надо:
Давайте определим круг потребителей и сразу разделим на очкариков и пользователей.
Очкарикам- всегда будет интересен потенциал и возможность покрутить ручками.
Пользователям- готовый функционал и волшебная кнопка.

Что надо:
САМОЙ ВАЖНОЙ и востребованной функцией- является ТОЛЬКО чистый парсинг "донора",а не выбор из столбца!
(кроме прочего это должно быть определяющим назначением программы и однозначно ЗАЯВЛЕНО разработчиком!)
Пользователь должен понимать сбор каких параметров необходимо определить парсеру для загрузки данных изображение, описание, цена итп.

Как надо:
Пользователь должен понимать что прежде необходимо настроить выгрузку данных парсера в подготовленные колонки Excel.
Сайты доноры как правило имеют категории и под категории своих товаров, для этого необходимо во избежании бардака найти конкретную цель для парсинга и определить разумное количество позиций для загрузки, во избежание БАНА по Ip со стороны сервера!

Я предполагаю что пошаговый диалог будет содержательнее, теперь приступлю к попытке с нуля настроится на "донора" и о своих злоключениях и проблемах буду писать не сайте.(по мере загруженности)
Ваши комментарии будут весьма кстати.

Sfera, большое спасибо за обзор моей программы)

Да, настройка программы нетривиальна, и пока я только сам это все настраиваю
(стоимость настройки под конкретный сайт, - от 500 до 1000 рублей)
Что самое интересное, - уже нашлось 2 или 3 человека, кто умудрился настроить программу самостоятельно)
Как они сами разобрались - не представляю...

Справка будет (пока рано, еще функционал не весь готов)
Будет видеоинструкция по настройке, - но, конечно, это все только для продвинутых пользователей
(вряд ли программа когда-нибудь получит интерфейс, понятный новичку, - я не представляю, как такое можно сделать,
чтобы все просто и понятно было, и в то же время была возможность гибкой настройки)

> Пункты настроек имеют дефолтные значения и не понятно можно ли подставлять свои.
там несколько вариантов полей параметров: текстовое поле, выпадающий список с возможностью ввода пользователем (при выделении поля, появляется кнопка выпадающего списка), и выпадающий список с предопределенными значениями (выбор только из 2-3 возможных вариантов)

> Сохранить сделанные настройки оказалось невозможно
странно... если вы не встраивали настройки в файл Excel, то все должно без проблем сохраняться

Лог ошибок будет обязательно, - но позже, в следующих версиях

То, что Excel порой «частично» подвисает, - есть такое дело, это глюк Excel (обойти этот глюк пока не знаю как)
Т.е. можно работать с файлами, закрывать и сохранять их, - все работает, только Excel корректно не закрывается, и ресурсы процессора отъедает (даже если все файлы и надстройки в Excel закрыты, и никакие макросы не работают)

> Продукт формируется с явным креном на платную настройку
Поверьте, мне было бы намного проще, если бы пользователи настраивали парсеры самостоятельно, без моего участия (как происходит это с остальными моими программами).
Но, увы, сделать понятный интерфейс настройки нереально сложно.
Задача моя состояла в том, чтобы избавить себя от рутинной работы по написанию однотипных макросов для сбора данных с сайтов.

PS: Могу вам помочь с настройкой парсера под сайт (показав через TeamViewer, что и как настраивается, на примере вашего сайта)
А вы мне сразу скажете, предназначение каких элементов интерфейса особо непонятно для пользователя (чтобы я сделал программу удобнее)

Система: win 8.1 x64, Excel 2013, gal-art.pl
Мой опыт:
После трех часов ковыряний по вкладкам и подпунктам программы, для себя, кроме прочего, установил следующее- программа разделена на три основные части, первая отвечает за парсинг с сайта донора, вторая за вывод данных в таблицу Excel.
Обе части имеют весомые наборы дефолтных настроек под нужды определяемые пользователем.
Вкладка- загрузка файлов под опыт не попала из-за не внятности назначения.
Так же программа имеет массу дополнительных универсальных возможностей.
В программе предусмотрен очень полезный Режим тестирования для тонкой, пошаговой настройки и проверки работы элементов.

Итог:
Автор заложил в программу весьма мощный инструментарий и поэтому 100% требуются специальные знания вёрстки Html.
Разобраться что к чему, зачем, куда и почему,- под силу только самому автору или очень продвинутому, очкастому юзеру.
Справка по действиям отсутствует и сразу создаст ловушку сделать ошибку в самом начале работы что приведёт в тупик (даже для тестов).
Работу режима тестирования в настройках придумали инопланетяне- явно для издевательства (ОШИБКА: Неверная ссылка для загрузки веб-страницы).
Пункты настроек имеют дефолтные значения и не понятно можно ли подставлять свои.
Отсутствует защита от "дурака"(ошибочных действий пользователя).
При первом парсинге (пункт № 46-Белый говлит браслет) программа заполнила поле Цена значением (01.09.1990.)
Попытка настроить парсинг с сайта http://www.ikea.com/RU/ru/ по выше изложенным причинам естественно провалилась.
Сохранить сделанные настройки оказалось невозможно, по этому делать следующую попытку нет смысла.
Отсутствует лог ошибок.
После закрытия документа gal-art.pl мой Excel 2013- завис окончательно и пришлось применять три весёлых кнопки.

Выводы:
Я давно не выкуривал пачку сигарет за вечер (чего и вам не советую).
Продукт формируется с явным креном на платную настройку и поддержку специалистом что лишает программу универсальности.
На сайте я не увидел такого пользователя, кто смог бы, самостоятельно настроить программу на работу.
Но объективности ради отмечу что, изначально в программа задумана как мощный, универсальный инструмент и находится в стадии разработки.

Будем ждать новых и разных версий и помогать в тестировании.
Надеюсь что автор подойдет к моим исследованиям профессионально и с юмором!

Здравствуйте, Ихтиёр
С системой PPS не знаком.
Позвоните мне в скайп, - обсудим, что надо сделать.

Необходима программа для ввода информации в Excel с листов запроса системы PPS если Вы знакомы с этой системой. Если нет то коротко о нем: На заводе по производству двигателей система выдает листы запроса на принтер в складе через EntenetExplorer на основе этих листов запроса оператор выдает детали для линии сборки двигателей.Затем в ручную вводит информацию о количестве и времени выдачи в Excel файл который последующим архивируется. Необходима программа для импорта данных с этих листов в exsel.

Игорь! Мы с вами общались по поводу разработки макросов для сбора сведений в Exel с площадки Госзакупок. Мы с вами поговорили и вы куда-то пропали? Уже прошло 2 недели.

Здравствуйте, Виталий
Смотря что должно получиться в результате
Программа работает только с Excel - т.е. в Excel можно сформировать таблицу любого вида.
Но мне надо понимать, какие будут исходные данные, и что должно получиться после сбора данных с сайта
Вышлете мне на почту пример в виде файла Excel - тогда скажу.
Или обращайтесь в скайп, - так быстрее будет.

PS: Если моя программа не справится, - всегда можно написать отдельный макрос под вашу задачу.

Мне нужен Парсер ставок с ссылки dns3.betcity.ru /bets/bets2.php?line_id[]=2751
Вашей программой можно это реализовать, чтобы импортировались в Excel или Access? Если да, то как, так как сам разобраться в демо-версии не смог. С Уважением!

Здравствуйте
Вышлите мне на почту пример исходных данных и результата (надо понимать, какую конкретно информацию требуется найти и загрузить)

PS: По вашей теме есть некоторые наработки, - может, что готовое подберем.

Добрый день!
Мне нужно создать макрос для закачивание необходимой информации с сайта госзакупок по номеру извещения.

Максим, эта опция до сих пор была не задействована, - только что её включил.
Скачайте последнюю версию программы с сайта, - и всё заработает.

Кстати, это «таймаут запроса» по-умолчанию равен 6 секундам, - сколько времени программа ожидает ответа от веб-сервера.
А «интервал между запросами» по-умолчанию равен нулю.

Опция "интервал между запросами" реализована?
По умолчанию 6, ставил максимум 600, разницы нет.

Sfera, как именно нужно сделать?
Копируя ссылки в Excel, а потом, нажав кнопку, собрать какие-то данные по выбранным товарам в другие столбцы?
С этим программа вполне справится.
Или надо как-то иначе?

Как сделать вот так?
http://idea-sr.ru/checkout/
или вот так?
http://shopikea.ru/checkout.html

Обращайтесь в скайп, - расскажу и покажу, как настраивать
(инструкция по программе пока не готова)

Не получается копировать изображения:( Не понимаю какими действиями дать программе понять что именно с этой ссылки качать нужно

Не скачивается ваша надстройка

Здравствуйте, Сергей.
Реализовать под OpenOffice, - можно, почему бы и нет.
Но это вопрос не ко мне, - я работаю только с Excel, а в OpenOffice совсем другие макросы (более сложные в плане разработки), так что я сомневаюсь, что кто-то будет делать подобное в бесплатных табличных редакторах.

Насчёт абракадабры, - такое возможно (хотя, я сам очень редко с таким сталкивался), если кодировка веб-страницы, возвращаемая сервером в заголовке веб-страницы, не соответствует реальной кодировке
В следующих версиях программы, будет возможность перекодировки.

Вместо текста возвращает абру-кадабру типа Сума до сплати: 197.00 грн

Скажите, а можно реализовать эту программу для Open Office? Сами понимаете он бесплатный, а на работе Excel - это дорого.

23 января 2014 г. в 09:22 стало доступно обновление программы «Parser» (версия 1.0.0 Beta).

Изменения в новой версии программы:

+ реализован расширенный функционал

Рекомендуем обновить программу до последней версии!

Уверен, что знаете. Мне никогда не требовалась авторизация.

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
   ____   _____   _  __  _____  ____    _     
/ ___| |___ | | |/ / |__ / | _ \ | |
| | _ / / | ' / / / | | | | | |
| |_| | / / | . \ / /_ | |_| | | |___
\____| /_/ |_|\_\ /____| |____/ |_____|
Введите код, изображенный в стиле ASCII-арт.