Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Структура программы «Парсер сайтов»

Надстройка Parser для Excel — простое и удобное решение для парсинга любых сайтов (интернет-магазинов, соцсетей, площадок объявлений) с выводом данных в таблицу Excel (формата XLS* или CSV), а также скачивания файлов.

Особенность программы — очень гибкая настройка постобработки полученных данных (множество текстовых функций, всевозможные фильтры, перекодировки, работа с переменными, разбиение значения на массив и обработка каждого элемента в отдельности, вывод характеристик в отдельные столбцы, автоматический поиск цены товара на странице, поддержка форматов JSON и XML).

 

В парсере сайтов поддерживается авторизация на сайтах, выбор региона, GET и POST запросы, приём и отправка Cookies и заголовков запроса, получение исходных данных для парсинга с листа Excel, многопоточность (до 200 потоков), распознавание капчи через сервис RuCaptcha.com, работа через браузер (IE), кеширование, рекурсивный поиск страниц на сайте, сохранение загруженных изображений товара под заданными именами в одну или несколько папок, и многое другое.

Поиск нужных данных на страницах сайта выполняется в парсере путем поиска тегов и/или атрибутов тегов (по любому свойству и его значению). Специализированные функции для работы с HTML позволяют разными способами преобразовывать HTML-таблицы в текст (или пары вида название-значение), автоматически находить ссылки пейджера, чистить HTML от лишних данных.

За счёт тесной интеграции с Excel, надстройка Parser может считывать любые данные из файлов Excel, создавать отдельные листы и файлы, динамически формировать столбцы для вывода, а также использовать всю мощь встроенных в Excel возможностей.
Поддерживается также сбор данных из текстовых файлов (формата Word, XML, TXT) из заданной пользователем папки, а также преобразование файлов Excel из одного формата таблицы в другой (обработка и разбиение данных на отдельные столбцы)

В программе «Парсер сайтов» можно настроить обработку нескольких сайтов. Перед запуском парсинга (кнопкой на панели инструментов Excel) можно выбрать ранее настроенный сайт из выпадающего списка.

Пример использования парсера для мониторинга цен конкурентов

 

Видеоинструкция

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

 

Дополнительные видеоинструкции, а также подробное описание функционала, можно найти в разделе Справка по программе

 

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

 

Настройка программы, - дело не самое простое (для этого, надо хоть немного разбираться в HTML)

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2000 рублей.
(настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (3300 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, готов проконсультировать вас в Скайпе.

 

Программа не привязана к конкретному файлу Excel.
Вы в настройках задаёте столбец с исходными данными (ссылками или артикулами),
настраиваете формирование ссылок и подстановку данных с сайта в нужные столбцы,
нажимаете кнопку, - и ваша таблица заполняется данными с сайта.

Программа «Парсер сайтов» может  быть полезна для формирования каталога товаров интернет-магазинов,
поиска и загрузки фотографий товара по артикулам (если для получения ссылки на фото, необходимо анализировать страницу товара),
загрузки актуальных данных (цен и наличия) с сайтов поставщиков, и т.д. и т.п.

 

Справка по программе «Парсер сайтов»

Можно попробовать разобраться с работой программы на примерах настроенных парсеров

Как скачать и протестировать программу

Комментарии

Все же прошу ответить на вопрос!
Как цвето-размерные параметры вывести не в строку, а вниз столбцом? Какую функцию использовать для этого?
Я их вычленила списком, но список иногда достигает 400 значений на 1 товар, а парсер максимум делает 245 столбцов.
Так же пыталась эти данные впихнуть в 1 ячейку с разделителями в самом тексте (для дальнейшей разбивки инструментами самого экселя), но ячейка вмещает всего 8000 символов и часть данных обрезает.
Заранее спасибо за ответ!

ну ясное дело что за деньги вы настроите)))
я купила этот парсер у вас чтобы самой его настраивать)
я уже разобралась что считывается этот блок с помощью "Получить массив из JSON"
поняла как вытянуть данные списком массива, но вот только пока не пойму как не столбцами все варианты вывести а строками

Елена, парсер может взять ЛЮБЫЕ данные со страницы (в том числе и те, что вам нужны)
Можем настроить под заказ.

Приветствую!
Парсер может такой код вытянуть? - view-source:http://11tactical.ru/catalog/bryuki-apex-pant/
введите через контрол+F 'NAME':
у товара на странице 360 вариаций размер+цвет

Да, именно про это там и говорится
Просто посмотрите видео...
https://www.youtube.com/watch?v=4bRwPIX8Wc0&feature=youtu.be&t=459

Разве там описана Http авторизация?

Ответ есть в этой видеоинструкции: загрузка страниц и авторизация на сайте

Подскажите, пожалйуста, если для доступа к домену необходимо указать логин и пароль, а они у меня есть, как это сделать в парсере? При загрузке исходного кода появляется пустой html-документ

Для заполнения полей на странице сайта используется браузер Internet Explorer.
Действие «Найти элемент в Internet Explorer» с третьим параметром SetValue, а четвертый параметр — подставляемое значение

Скажите, пожалуйста, что надо сделать, что надо сделать, чтобы в input подставить значение из полученного массива?

Насчёт убунты - помочь не смогу (во-первых, у меня нет лишнего компа для установки линукса, во-вторых, возни там много, - надо искать что не работает, а кроме вас, подобного никто не просил, так что потраченное время не окупится)
Да и с большой долей вероятности, даже если надстройка запустится под убунтой, работать всё равно не будет (или будут какие ошибки)
Я гарантирую работу программы только под Windows.

Не запускать же виртуальную машину с вин7 на юбунту чтоб с офисом работать

Почему бы и нет?
Многие пользователи моих программ работают на Mac, и используют их под виртуальной машиной.

Нужна совместимость с Microsoft Office 2010 под Ubuntu.

Знаю что на данный момент не популярная ОС по сравнению с Windows, но только ваш парсер удерживает меня от перехода с винды на убунту на работе.
Запускаю и устанавливаю Office через Playonlinux, Ubuntu 16.04 https://www.youtube.com/watch?v=hAl5rrP5sJI - видео тут.

Не запускать же виртуальную машину с вин7 на юбунту чтоб с офисом работать. При открытии вашей надстройки выдает ошибку и предлагает отправить отчет в Мс. Все "доп" компоненты и средства оффисы установлены (аналогичную установку делаю на винде и проблем не возникает). Возможно отсутсвуют какие то библиотеки - нужно знать какие и как их "поставить" доставить в wine да бы все работало как надо - если есть опыт - поделитесь возможно создайте инструкцию для пользователей линукс. Благодарю! Ну или крайний случай это аналогичное приложение для либры офис - но я думаю такое вы не будете делать - слишком много наверное переделывать надо будет.

Добрый день! можно подключить сервис rucaptcha.com - там доступно платное распознавание капчи, не очень дорого - около 4 копеек за капчу. парсер позволяет отправлять запросы на этот сервис и принимать ответ.

можем настроить под заказ, обращайтесь по скайпу antonmashkin

Добрый ден! Подскажите, пожалуйста, как с использованием куки бороться с капчей? На сайте, который парсится есть капча, но ни увеличение ожидания между запросами, ни использование прокси не помогает. Сайт reformagkh.ru

Этот вопрос лучше адресовать телепатам (которые знают, с какой страницы вы ссылки собираете, и какие там параметры указали)
А если нужна моя помошь, - напишите мне в скайп или не почту, с какого URL надо взять ссылки пейджера, и какие параметры вы задали у действия

Добрый день! Парсер никак не хочет находить ссылки пейджера, хотя HTML фильтр и маска указаны верно, подскажите, пожалуйста, как быть?

Очень даже спасибо)

Федор, пример регулярного выражения для поиска email есть в этом парсере:
http://excelvba.ru/programmes/Parser/samples/email_parser

Подскажите пожалуйста, получаю парсером содержимое в текстовом виде. В этом содержимом нужно найти и сохранить электронный адрес. Взять текст до и после не подходит потому что нет закономерности в тексте. Подходят регулярные выражения, но почему то не срабатывает. Можно увидеть пример использования регулярок в таком ключе?

Спасибо!

В настройках парсера, на вкладке ДОПОЛНИТЕЛЬНО, увеличьте время ожидания ответа с 6 секунд до 20, например

День добрый!
Подскажите, пожалуйста, как решить проблему: сайт, который выгружаю, очень долго грузится (более 6 сек) из-за большого объема данных, а оператор "Загрузить ИСХОДНЫЙ КОД веб-страницы" выдает ошибку Сервер не ответил за 6 сек. Но я знаю точно, что надо просто подождать и страница загрузится. Как решить эту проблему?

Спасибо.

Василий, у меня такое впечатление, что вы что-то не то настраиваете
Массив значений выводится наверняка же начиная не с 257-го столбца, — если надо выводить однотипные данные, начиная, к примеру, с 50 по 1000 столбцы, то в настройках задается вывод в столбец 50, со включенной опцией формирования остальных столбцов (там 2 варианта есть)

Но можно и увеличить количество столбцов в настройках
Откройте редактор реестра (Пуск - Выполнить - regedit), найдите ветку
HKEY_CURRENT_USER\Software\VB and VBA Program Settings\Parser\Settings
и создайте там новый строковый параметр с названием MAX_COLUMN и значением, например, 1000

PS: Если вы хотите в настройки парсера (в вывод на лист) добавлять (настраивая) 1000 столбцов, - вы явно перемудрили с настройкой. Всё делается намного проще. Могу настроить под заказ.

Здравствуйте. Подскажите в настройках "вывод на лист" в основных настройках, номер столбца максимальное количество устанавливается 256. А мне нужно больше!!! Делается массив значений в отдельные столбцы и у меня их около 1000.

Ильнар, да, я в курсе (что 10 дней вместо 15 даётся), позже исправлю

Установил сегодня 15.04.17 Parser.xla. Он показал, пробная версия программы . Осталось: 10 дней.
Не претензия!!! Это к информации. Для тестирования думаю хватит 10 дней

Большое спасибо - очень помогли!!!

Алексей, для этого сайта можно получить все результаты, не перебирая ссылки пейджера
Допишите в конец URL (до загрузки страницы по ссылке) текст &pages=1000, и тогда сайт выведет все результаты (точнее, первые 1000 результатов) на одной странице.
Должна получиться такая ссылка: http://www.geo-home.com/index.php?lang=ru&act=search&t=sale&c=new&nw=nbu...

Небольшая проблемка с настройками парсера - не могу прогрузить все ссылки пейджера. Вот сама страничка http://www.geo-home.com/index.php?lang=ru&act=search&t=sale&c=new&nw=nbu... и скриншотик https://www.screencast.com/t/k8qHXDFW
отсутствует префикс пейджера. Как быть в этом случае, как прогрузить все ссылки сраниц?

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  __  __                 _              _  _   
| \/ | __ __ ___ | |__ _ __ | || |
| |\/| | \ \ / / / __| | '_ \ | '__| | || |_
| | | | \ V / \__ \ | | | | | | |__ _|
|_| |_| \_/ |___/ |_| |_| |_| |_|
Введите код, изображенный в стиле ASCII-арт.