Надстройка Parser для MS Excel: общие сведения
Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.
Основные возможности:
- парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
- извлечение данных из файлов формата Word / Excel / txt / PDF
- скачивание файлов (изображений, документов, и т.п.)
- обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)
Особенности программы
Простота использования и настройки
- Запуск парсера нажатием одной кнопки на ленте Excel
- Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач. - Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
- Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами) - Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.
Гибкая постобработка данных
- Множество текстовых функций для обработки полученной информации
- Разнообразные фильтры и функции перекодировки
- Работа с переменными и массивами данных
- Разбиение значений на отдельные элементы с индивидуальной обработкой
- Автоматический вывод характеристик товаров в отдельные столбцы
- Интеллектуальный поиск цен на страницах
- Поддержка форматов JSON и XML
Продвинутые сетевые возможности
- Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
- Авторизация — поддержка входа в аккаунты на различных сайтах
- Региональные настройки — выбор географического региона для парсинга
- HTTP-запросы — поддержка GET и POST методов, конструктор запросов
- Cookies и Headers — полная работа с HTTP-заголовками и куки
- Многопоточность — до 200 одновременных потоков для ускорения работы
- Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
- Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
- Кеширование — сохранение данных для повторного использования
Неограниченные возможности поиска и навигации по сайту
- Рекурсивный поиск страниц на сайтах
- Поиск данных по HTML-тегам и их атрибутам
- Автоматическое обнаружение ссылок пагинации (пейджера)
- Специализированные функции для работы с HTML-таблицами
- Преобразование HTML в текст и пары "название-значение"
- Очистка HTML от лишних данных
Интеграция с Excel
- Чтение данных из файлов Excel для использования в парсинге
- Создание отдельных листов и файлов
- Динамическое формирование столбцов для вывода результатов
- Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
- Удобная панель инструментов для запуска парсинга
Работа с файлами
- Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
- Обработка файлов из заданных пользователем папок
- Сохранение изображений и документов под заданными именами в настраиваемые папки
С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.
Более подробно всё это описано в разделе Справка по программе
Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.
Комментарии
Здравствуйте, Александр.
Вы можете заполнить сколько угодно строк
1) загружаем очередную страницы (получаем исходный код)
2) находим на ней нужную таблицу (поиск элемента по ID или имени класса)
3) получаем массив строк таблицы (действие «поиск заданных тегов» - тег TD)
4) откидываем лишние строки (действие «Проверка на выполнение условия»)
таким образом, получаем массив «строк» (содержимое тегов TD)
ну а дальше вывод на лист, - извлекаем нужные данные для вывода в каждый из столбцов таблицы
чтобы это все не тормозило, - надо использовать подуровни (чтобы программа начинала вывод данных по мере обработки, а не после того, как загрузит все 200 тыс страниц)
Если сами не разберетесь, - можем настроить под заказ
Уважаемый администратор, здравствуйте!
Во-первых, огромное спасибо за Вашу работу - безумно полезная штука! и что самое главное гибкая.+++
В свое время была необходимость загрузить сайт - пришлось писать вручную на С++. А тут Вы такую штуку подогнали - просто БЕСЦЕННО!!!)
Во - вторых вопрос: скажу честно глубоко примеры не изучил, но в 4 просмотренных не нашел нужной фичи.
Необходимо: на загружаемых страницах (их порядка 200 тысяч) имеются таблицы, в которых могут присутствовать данные или нет, в каких-то 0 строк, в каких-то - 50.
Шапка таблицы одна.
Цель: с каждой страницs необходимо загружать данные в одну таблицу!
Пока по примерам я понял что я могу заполнить лишь одну строку таблицы, нельзя-ли используя имеющиеся функции запилить цикл в составе обработки одной страницы?
Еще раз, ОГРОМНОЕ СПАСИБО, за Вашу РАБОТУ!!!
Здравствуйте, Артём
С получением номера телефона с этого конкретного сайта нет никаких проблем, - моя программа справится
(надо отправить 1 дополнительный запрос для каждого найденного риэлтора)
Высылайте на почту пример результата в файле Excel - настроим парсер под заказ
Каким образом можно спарсить информацию с сайта:
http://www.gdeetotdom.ru/realtors/search/?rid=1232535&dstr=408887&rubr=1
Нужно спарсить номер телефона, который в коде имеет нижеприведенный вид (не проявляется). При нажатии на сайте на ссылку "позвонить" появляется номер телефона.
Позвонить
alex.club, извиняюсь за допущенную ошибку.
Залил исправленную версию
После обновления глюки нереальные. В графе: Сохранить текущее значение в переменную пропали все имена, заменились на одно, при попытке исправить меняются автоматом все имена в пассере на такоеже. При выводе соответственно тоже одно имя.
24 января 2015 г. в 07:05 стало доступно обновление программы «Parser» (версия 1.1.1).
Изменения в новой версии программы:
Рекомендуем обновить программу до последней версии!
1) Моя программа может сохранить загруженные данные и в CSV формате
2) Мой скрипт, он для Excel (это надстройка для Excel), но никак не для сайта
И запускается всё, соответственно, нажатием кнопки в Excel
А файл CSV вы уже потом можете вручную импортировать на сайт
1) А в csv-формате сможет?
2) Ваш скрипт он же у нас будет храниться на сервере (чтоб мы его потом могли запускать)?
Здравствуйте, Алексей.
Моя программа не копирует с сайта на сайт.
Она выгружает данные в Excel (данные - в таблицу Excel, картинки - в заданную папку)
Опции загрузки скачанного на сайт, в программе нет.
Если вам требуется напрямую с сайта на сайт данные подтягивать, - нужен парсер на PHP (обратитесь к веб-програмистам)
Добрый день!
Сможем скопировать каталог товаров с сайта http://www.chisto.ru/
Копировать нужно будет на сайт сделанный на битриксе
Нужно чтобы каталог обновлялся постоянно.
Интересуют сроки и цена (если такое возможно)
Юлия, версии надстройки под Мак нет и не будет (слишком много переделывать)
Мои программы работают только в Excel под Windows.
Счастливые обладатели Mac пользуются моими надстройками под Parallels
alex.club, приостановку при отсутствии инета я может и сделаю в следующих версиях,
но это не решит проблему полностью, если инет пропадает и появляется.
Вот как проверить наличие инета? Пингом до какого-то вечно работающего сайта типа google?
Ну, допустим, пинг прошёл (инет есть), начинаем грузить страницу, - и тут инет снова отвалился...
Как моя программа поймёт, - это страница конкретная недоступна, или с инетом проблема?
Я понимаю вашу просьбу, - подобный функционал действительно нужен.
Просто пока плохо представляю себе, как это реализовать.
А вообще, использование программы-парсера подразумевает наличие нормального стабильного интернета...
Спасибо. Это не подходит,тогда пассер остановиться, нужно чтобы он приостанавливался при отсутствии интернета, а при появлении продолжал сканирование.
Можно ли алаптировать надстройку под excel для mac?
Это можно реализовать настройками программы.
Достаточно добавить одно действие «Проверка на выполнение условия» после действия «загрузить исходный код веб-страницы»
Сравниваете результат с пустой строкой (или на несоответствие с маской ***),
и при выполнении условия (страница не загрузилась) выполняете вывод сообщения об ошибке (третий параметр - «критическая ошибка»)
И получите что хотели, - если страница не загрузится, выскочит сообщение, и парсер прекратит свою работу.
Обратил внимание, что при обрыве интернета или занятости канала пассер не приостанавливает работу а начинает сканировать с сумасшедшей скоростью с нулевым результатом. Возможно ли реализовать контроль на наличие подключения к интернет? Например через пинг корня сайта? В случае недоступности останавливать сканирование.
Дмитрий, техподдержка осуществляется только в голосовом режиме: http://ExcelVBA.ru/help
Позвоните, — я покажу, как лучше сделать.
как вывести первый уровень на лист в один столбец, а потом второй уровень в другой столбец??
я уже замахался...
мне нужно два разных результата на лист в разные столбцы.
Большое человеческое спасибо!
съэкономил мне невероятное количество человеко-часов!
aspx - а почему не должна поддерживать?
что такое веб-страница? это HTML-код (обычный текст с тегами) в одной из нескольких кодировок (обычно utf-8).
А .aspx или .html там написано в конце URL — разницы абсолютно никакой нет.
Программного нажатия кнопок нет (в том виде, как вы себе это представляете)
Но фунционал для работы с подобными сайтами есть, - любые данные, вводимые в текстбоксы, после нажатия кнопки отправляются на сервер POST или GET запросом.
Так вот программа может отправлять такие запросы, передавая данные методом GET или POST
(т.е. программа может авторизоваться на сайте, например)
aspx страницы поддерживает? (например сайт майкрософт). Все мои попытки почитать исходный код привели к ошибке результата.
Кроме того, хотелось бы узнать, реализовано ли в вашей надстройке программное нажатие кнопок и программное заполнение элементов страницы ( например, комбобокз, едитбокз и т.д.)?
действие ЗАДАТЬ НОВОЕ ЗНАЧЕНИЕ
2 варианта на выбор:
1) значение {1} {12} {10}
2)значение =RC1&" "&RC12&" "&RC10
второй вариант выведет в ячейку формулу
PS: не надо писать вопросы и на сайте, и в личку
выберите один способ общения, - чтобы мне не приходилось дублировать ответы
Из HTML удалось взять нужную информацию, а вот на обработке таблицы Excel застрял на такой ерунде... Как реализовать в парсере задачу, которую решает следующая функция?
M2=СЦЕПИТЬ(A2;",";L2;",";K2)
Валерий, ответил вам на почту
Парни, кто разобрался в этом парсере ?
Нужно сделать настройки для парсинга только цен с разных сайтов, готов оплатить услугу, всего надо 20 сайтов сейчас и периодически еще
Писать сюда 89261552323asd @ mail.ru
Здравствуйте, Ариан
Видеоинструкция пока еще не готова, — будет примерно через месяц.
Как запустить надстройку, — скачать файл на рабочий стол, и дважды щелкнуть по нему
На ленте Excel, на вкладке НАДСТРОЙКИ, появится панель инструментов.
Потом можете опробовать в работе примеры парсеров
В том числе, парсер обновления цен с 16 сайтов
Здгасьте.
Возможно я олень, но не могу разобраться в продукте.
По примеру я понял, что тут находится моя прелесть, тот самый парсер который так травит душу своим отсутствием)
Задача такая: Обновление цен с сайтов
Началось мое скучное приключение с того, что я не знаю как запустить парсер:(
Высылайте на почту order@excelvba.ru
Здравствуйте, куда скинуть описание и пример в виде таблицы ?
Я же писал, — надо запустить 2 копии Excel (они будут работать независимо друг от друга)
Поставили мою программу в автозапуск (галочка в окне "О программе" - "действия с надстройкой"),
запустили Excel, выбрали парсер из выпадающего списка.
Потом, через меню Пуск, запускаем ЕЩЕ ОДИН Excel, - в нём тоже автоматически запустится моя программа.
И теперь запускаем парсер и там и там (один и тот же, или разный, - неважно), - они должны работать независимо друг от друга.