Надстройка Parser для MS Excel: общие сведения
Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.
Основные возможности:
- парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
- извлечение данных из файлов формата Word / Excel / txt / PDF
- скачивание файлов (изображений, документов, и т.п.)
- обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)
Особенности программы
Простота использования и настройки
- Запуск парсера нажатием одной кнопки на ленте Excel
- Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач. - Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
- Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами) - Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.
Гибкая постобработка данных
- Множество текстовых функций для обработки полученной информации
- Разнообразные фильтры и функции перекодировки
- Работа с переменными и массивами данных
- Разбиение значений на отдельные элементы с индивидуальной обработкой
- Автоматический вывод характеристик товаров в отдельные столбцы
- Интеллектуальный поиск цен на страницах
- Поддержка форматов JSON и XML
Продвинутые сетевые возможности
- Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
- Авторизация — поддержка входа в аккаунты на различных сайтах
- Региональные настройки — выбор географического региона для парсинга
- HTTP-запросы — поддержка GET и POST методов, конструктор запросов
- Cookies и Headers — полная работа с HTTP-заголовками и куки
- Многопоточность — до 200 одновременных потоков для ускорения работы
- Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
- Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
- Кеширование — сохранение данных для повторного использования
Неограниченные возможности поиска и навигации по сайту
- Рекурсивный поиск страниц на сайтах
- Поиск данных по HTML-тегам и их атрибутам
- Автоматическое обнаружение ссылок пагинации (пейджера)
- Специализированные функции для работы с HTML-таблицами
- Преобразование HTML в текст и пары "название-значение"
- Очистка HTML от лишних данных
Интеграция с Excel
- Чтение данных из файлов Excel для использования в парсинге
- Создание отдельных листов и файлов
- Динамическое формирование столбцов для вывода результатов
- Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
- Удобная панель инструментов для запуска парсинга
Работа с файлами
- Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
- Обработка файлов из заданных пользователем папок
- Сохранение изображений и документов под заданными именами в настраиваемые папки
С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.
Более подробно всё это описано в разделе Справка по программе
Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.
Комментарии
Как часто при работе парсера в пробном периоде выходит окно - "вы используете пробную версию парсера?"
Посмотрите видеоинструкцию по настройке авторизации, - и поймете, что не так сделали
http://excelvba.ru/programmes/Parser/manuals/Loading_Pages_and_Logon
Здравствуйте. Как быть, если данные, которые мне нужно спарсить доступны только для залогиненных пользователей. Я запустил internet explorer, зашел на нужный сайт и авторизовался на нем. Но это не помогло. Парсер бегает по сайту как не зарегистрированный пользователь
Денис, это делается в 3 действия:
Добрый день!
Спасибо за парсер! Вопрос, как можно, в ячейке с датой вида "20.12.2017 20:48" перевести ее в unix time stamp формат вида "1516303320"?
Здравствуйте. Подскажите а может ли программа по окончанию работы парсера выслать не файл excel а текстовое сообщение на почту. Через почтовую программу.
Решение проблемы описано здесь:
http://excelvba.ru/faq/excel_error
(причина: либо антивирус повредил файл при скачивании или при запуске, либо не установлен компонент Microsoft Visual Basic)
Здравствуйте. Я запустил файл и вышло вот это сообщение
http://joxi.ru/v29axJZSGgJVo2
Нажал включить, после этого такое сообщение
http://joxi.ru/Vm6LOb0TxNYODA
С чем связана эта ошибка и что мне делать?
При получении исходного кода с помощью парсера он получает только код нескольких скриптов. То же самое и в браузере при Ctrl+U
Нет, парсер работает только из под Windows, без вариантов
Здравствуйте вы делаете Парсeр для Mac OS Excel?
Валерий, не существует веб-страниц с защищённым от просмотра кодом.
Исходный код любой страницы можно посмотреть
Здравствуйте!
Подскажите можно ли вашим парсером получить исходный код страницы если он защищен от данного просмотра?
заказы на парсер принимаются в таком виде
будет заказ - тогда смогу озвучить стоимость
Сколько будет стоить настраивание под заказ?
Артём, да, можно. Парсер всё это умеет. Нужно просто правильно настроить
вы берете все подряд со страницы - конечно, много лишнего попадет
Если готовы приобрести программу, - напишите в скайп, подскажу, что как сделать.
Здравствуйте! Пытаюсь парсить архив мероприятий кассы.ру (просто так открыть нельзя, только прописывая в адресной строке нужный месяц и год) и при парсинге в выводе ставлю тип элемента "p", тип результата "convert to text", но тут загвоздка в том, что в этом элементе ещё много ненужного текста (нужно место вместе с датой и стоимость). Можно ли как-то парсер научить отбирать нужную информацию и разбивать на столбцы?
Не работает, потому что в исходном коде страницы нет этого тега, который вы ищете (а в браузере - есть, - там скрипт отрабатывает, выводя цену)
Вы тестируете действие на коде странице, загруженном парсером?
Откройте этот HTML код в блокноте, поиском найдите цену, - и посмотрите, где она там.
PS: могу настроить под заказ.
Не зробит( может существует способ подбора текста по его формату? цвет, размер, как в моём случае?!
Просто используйте действие из раздела HTML «Взять цену товара»
Если найдёт не ту цену, что надо, в качестве параметра укажите class=item-price
Приветствую! у меня возникла сложность с использованием парсинга, а конкретно: есть сайт канцелярии, и цену этот сайт выставляет, как я понял, через сторонее апи(могу ошибаться), так, что у этого значения(цены) нету класса, существует ли способ как то заставить парсер воспринимать нужное мне значение? П.С. прикрепляю скрин загруженный на облачное хранилище прогрммы "Light Shot". / http://prntscr.com/i0mxah / http://prntscr.com/i0mzqq .
Могу только сказать, что информация из всплывающих окон, по факту, ничем не отличается от информации в любом другом месте веб-страницы.
И обрабатывается все аналогично.
Если сами не справляетесь с настройкой, - можем настроить под заказ.
Доброго времени суток. А что можете сказать про информацию из всплывающих окон? Они не имеют отдельной страницы. Как настроить на сбор информации из этих окон? Через исходные данные или вывод на лист? не подскажете, что делать?
Здравствуйте, Дмитрий
В общем случае, это невозможно (если парсер не разделен на 2 части, - отдельно выводим список ссылок на товары, и вторым парсером, который можно останавливать, выводим данные по ссылкам)
И посмотрите это видео, там рассказывается, что можно сделать:
https://www.youtube.com/watch?v=vrePs7pojTI
Доброго времени суток.
Как после отмены парсинга начать с того места где остановился?
Здравствуйте. Написал парсер Авито, парсит в один поток с интервалом между запросами, работает стабильно. Скажите опираясь на свой опыт, возможно ли написать парсер Авито, что бы он работал в многопотоке, при этом что бы сайт не выдавал бан?
Здравствуйте, Николай.
В парсере нет этого функционала, и не планируется,
потому что вставить картинки (как по ссылкам, так и уже скачанные, из папки) можно нажатием одной кнопки в этой надстройке:
http://excelvba.ru/programmes/PastePictures
Дублировать её функционал в парсере я не хочу.
Добрый день Игорь. В программе есть возможность вставить изображение в ячейку. Скажем я получил ссылку на изображения. Но хочу чтоб вместо ссылки там стояла картинка. Если можно то с заданными мной размерами. Это есть в функционале программы?
Подскажите пожалуйста, а если на странице указан пейджер не в виде перечня всех страниц, а просто текущая страница и две стрелки "вперед" и "назад" - как в таком случае настроить? Идентификатор пейджера "?page="
Парсер выдает только первую страницу и вторую, а их намного больше
Спасибо
Последним действием перед выводом на лист добавьте действие "Добавить текст ДО или ПОСЛЕ" и в параметр "ДО" поставьте апостроф - '
Сам апостроф в ячейке не отображается (его видно только в строке формул), при этом значение воспринимается как текстовое.