Надстройка Parser для MS Excel: общие сведения
Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.
Основные возможности:
- парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
- извлечение данных из файлов формата Word / Excel / txt / PDF
- скачивание файлов (изображений, документов, и т.п.)
- обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)
Особенности программы
Простота использования и настройки
- Запуск парсера нажатием одной кнопки на ленте Excel
- Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач. - Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
- Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами) - Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.
Гибкая постобработка данных
- Множество текстовых функций для обработки полученной информации
- Разнообразные фильтры и функции перекодировки
- Работа с переменными и массивами данных
- Разбиение значений на отдельные элементы с индивидуальной обработкой
- Автоматический вывод характеристик товаров в отдельные столбцы
- Интеллектуальный поиск цен на страницах
- Поддержка форматов JSON и XML
Продвинутые сетевые возможности
- Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
- Авторизация — поддержка входа в аккаунты на различных сайтах
- Региональные настройки — выбор географического региона для парсинга
- HTTP-запросы — поддержка GET и POST методов, конструктор запросов
- Cookies и Headers — полная работа с HTTP-заголовками и куки
- Многопоточность — до 200 одновременных потоков для ускорения работы
- Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
- Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
- Кеширование — сохранение данных для повторного использования
Неограниченные возможности поиска и навигации по сайту
- Рекурсивный поиск страниц на сайтах
- Поиск данных по HTML-тегам и их атрибутам
- Автоматическое обнаружение ссылок пагинации (пейджера)
- Специализированные функции для работы с HTML-таблицами
- Преобразование HTML в текст и пары "название-значение"
- Очистка HTML от лишних данных
Интеграция с Excel
- Чтение данных из файлов Excel для использования в парсинге
- Создание отдельных листов и файлов
- Динамическое формирование столбцов для вывода результатов
- Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
- Удобная панель инструментов для запуска парсинга
Работа с файлами
- Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
- Обработка файлов из заданных пользователем папок
- Сохранение изображений и документов под заданными именами в настраиваемые папки
С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.
Более подробно всё это описано в разделе Справка по программе
Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.
Комментарии
Спасибо. Получилось. Возник еще вопрос. Массив ссылок на картинки в ячейке excel выводится с разделителем в виде 3 вопросительных знаков в квадратиках с тильдами в начале и в конце. Заменить этот набор знаков например на запятую через Найти и Заменить не получается.
Добрый день, Максим! Попробуйте действие "Открыть веб-страницу в Internet Explorer", возможно, еще понадобится "Прокрутить страницу вниз в Internet Explorer". Только потом в конце парсинга (Parser_Finish) не забудьте использовать "Закрыть Internet Explorer", а то будет висеть экземпляр IE в скрытом режиме
Здравствуйте, на данной странице http://nazarov-gallery.ru/catalog/vosproizvedenie/akusticheskie-sistemy/... текстовое описание товара (которое во второй колонке напротив технических характеристик) выводится на страницу каким-то образом так, что отсутствует в результате полученном по действию Загрузить ИСХОДНЫЙ КОД веб-страницы. Есть ли способ его получить?
Спасибо!
Добрый вечер!
Используйте действие Проверка на соответствие маске:
*бренд1*|*бренд2*|*бренд3*
и т.д.
Добрый день.
Подскажите пожалуйста.
Нахожу ссылки категорий, в которых есть деление по брендам, их много. Как можно оставить только несколько?
Пользуясь функцией отбора остается только 1 бренд, а надо несколько.
Заранее спасибо!
Форума нет, вопросы можно задавать в комментариях к статье, может кто и ответит
Насчёт форума, - подумаю, в будущем наверняка форум понадобится.
А пока пишите здесь, - если вопрос достаточно четко сформулирован, я постараюсь ответить вкратце
Но, в то же время, на большинство вопросов по переписке не ответить, - надо подключаться к вашему компу, смотреть что там настроено, пробовать
(т.е. удалённо через TeamViewer проблема почти любая решается за несколько секунд, но вот по переписке это обычно крайне сложно и долго)
Т.е. я не готов помогать с настройкой не потому, что мне лень или денег надо, а потому что времени отнимает много (списаться / созвониться в скайпе, подключиться через тимвьюер, выяснить что надо, и т.п.)
Если бы пользователи парсера за соседним компом находились, - помогал бы быстро и бесплатно.
А без подключения к вашему компу, для помощи надо обладать навыками телепатии и кучей свободного времени, с чем у меня сложности.
А может есть какой-нибудь форум по вашей программе, где люди обмениваются опытом использования программы, и в случае необходимости смогут подсказать пути решения по тому или иному сайту. Как вы написали:"Потому что сайтов много, вопросы могут возникать регулярно, пользователей у программы уже много, и я не готов тратить на это время.", в тоже время я нашел только одну видеоинструкцию по работе с программой, из которой не все моменты понятны.
Нет, в техподдержку НЕ входит настройка парсеров / помощь с настройкой. Это только платно.
Потому что сайтов много, вопросы могут возникать регулярно, пользователей у программы уже много, и я не готов тратить на это время.
В качестве исключения, единоразово, могу помочь, если время будет свободное. Но а вообще, только платно
Добрый день.
После покупки программы,подразумевается ли бесплатная помощь в настройке (конечно не полностью парсера), а в тех местах где не получается.
Добрый день, Вадим!
Кеш используется для ускорения загрузки сайтов. 50 гб обычно очень долго скапливается, поэтому если мы делаем настройку, то особо никого не предупреждаем, а ставим очистку файлов кеша перед каждым запуском парсера и таких больших значений не набирается. Надо смотреть Ваши настройки.
Можно отключить создание файлов кеша в настройках парсера (последняя вкладка - Дополнительно/Параметры/Кеширование), там же, кстати, находится кнопка очистки кеша. Но отключение кеша может привести к увеличению времени загрузки.
Добрый день, нечайно нашел папку в AppData\Roaming\ParserCache , у меня она занимала около 50гб( это после пары парсингов) , в первые узнал что парсер создает столько временных фалов. Могли бы предупреждать о таком или лучше сделать кнопку в парсере для очистки этих файлов.
Спасибо.
Попробуйте поставить в поле "префикс пейджера" &start=
Не получается настроить парсер на этапе пейджер
страница раздела shop/show_cat.php?catid=7 или shop/show_cat.php?start=0&catid=7 а страницы имеют вид shop/show_cat.php?start=80&catid=7
Нажмите О программе - Опции, там есть кнопка для удаления.
как удалить этот макрос полностью с компьютера без следов?
значит, что-то не так настраиваете
посмотрите еще раз видеоинструкцию
могу настроить под заказ
заказы на парсер принимаются в таком виде
http://excelvba.ru/programmes/Parser/order
Причем тут парсер, если вы подставляете данные?
Точно речь про парсер, а не про надстройку для подстановки данных?
http://excelvba.ru/programmes/Lookup
Пишите подробнее на почту, что куда надо подставить
ДОбрый День! Не получается настроить парсер уже на этапе теги, что это может значить?
Подскажите пожалуйста. Есть основная таблица куда при помощи ВПР подставляются данные из других таблиц (Эти данные в другие таблицы подставляются при помощи Вашего парсера). Все работает отлично. Но мне надо что б при подстановки в основную таблицу подставлялись и гиперссылки которые в других таблицах работают а при выполнении ВПР в основной таблице их нет. Для этого нужен макрос? Или можно сделать формулой EXCEL. В ячейке куда нужно вставить ссылку уже есть формула =ЕСЛИОШИБКА(ВПР($A4;Aquamir.ru!C:D;2;0);""). Подскажите пожалуйста.
только имя сертификата прописываете
PS: я в этих сертификатах не спец, и этой опцией пользовался только пару раз (редко попадаются сайты, которые без сертификата не обработать)
Если не разберетесь, - можно для загрузки страниц использовать Internet Explorer (он сам разберется с сертификатом)
в парсере путь прописывать или только имя,и куда устанавливать сертификат?
Сергей, всё можно, - если нужные вам данные есть на сайте, и вы сможете объяснить, как бы вы эту информацию собирали вручную.
Можно автоматизировать всё, что вы можете объяснить как надо делать.
Заказы на парсер принимаются в таком виде
http://excelvba.ru/programmes/Parser/order
Подскажите а делать парсинг с сайтов по определенному списку инн компаний возможно? Например у меня есть список из 100 инн компаний по которым,например, на сайте rusprofil.ru мне нужно собрать инормацию по каждому инн, содержащую название,адрес,контакты и т.д.?
Да, можно обрабатывать сайты с сертификатами
В этом поле в настройках указывается название сертификата (сертификат должен быть установлен на компе)
Добрый день, программа может парсить сайты с сертификатами ? в - дополнительно/разное/использовать сертификат при запросе - как этим пользоваться ?
Если не получается, - всегда можно заказать настройку парсера:
http://excelvba.ru/programmes/Parser/order
не получается у меня никак(
к сожалению не нашла инструкцию, сможете подсказать как авторизоваться на этом сайте http://santehcentr.com/
Парсите сайт (как обычно, - см. видеоинструкцию), - получаете таблицу с данными на отдельном листе.
Можно сразу перед выводом артикула выполнить замены лишних символов в нем на пусто.
А потом подставляете данные в свой лист при помощи формулы =ВПР() или этой надстройкой:
http://excelvba.ru/programmes/Lookup
Вариант 2: брать артикулы с листа, и вбивать их в поиск по сайту (если таким способом будет находиться на сайте то что нужно)
Подскажите как!!! Какую функцию использовать?