Надстройка Parser для MS Excel: общие сведения
Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.
Основные возможности:
- парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
- извлечение данных из файлов формата Word / Excel / txt / PDF
- скачивание файлов (изображений, документов, и т.п.)
- обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)
Особенности программы
Простота использования и настройки
- Запуск парсера нажатием одной кнопки на ленте Excel
- Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач. - Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
- Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами) - Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.
Гибкая постобработка данных
- Множество текстовых функций для обработки полученной информации
- Разнообразные фильтры и функции перекодировки
- Работа с переменными и массивами данных
- Разбиение значений на отдельные элементы с индивидуальной обработкой
- Автоматический вывод характеристик товаров в отдельные столбцы
- Интеллектуальный поиск цен на страницах
- Поддержка форматов JSON и XML
Продвинутые сетевые возможности
- Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
- Авторизация — поддержка входа в аккаунты на различных сайтах
- Региональные настройки — выбор географического региона для парсинга
- HTTP-запросы — поддержка GET и POST методов, конструктор запросов
- Cookies и Headers — полная работа с HTTP-заголовками и куки
- Многопоточность — до 200 одновременных потоков для ускорения работы
- Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
- Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
- Кеширование — сохранение данных для повторного использования
Неограниченные возможности поиска и навигации по сайту
- Рекурсивный поиск страниц на сайтах
- Поиск данных по HTML-тегам и их атрибутам
- Автоматическое обнаружение ссылок пагинации (пейджера)
- Специализированные функции для работы с HTML-таблицами
- Преобразование HTML в текст и пары "название-значение"
- Очистка HTML от лишних данных
Интеграция с Excel
- Чтение данных из файлов Excel для использования в парсинге
- Создание отдельных листов и файлов
- Динамическое формирование столбцов для вывода результатов
- Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
- Удобная панель инструментов для запуска парсинга
Работа с файлами
- Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
- Обработка файлов из заданных пользователем папок
- Сохранение изображений и документов под заданными именами в настраиваемые папки
С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.
Более подробно всё это описано в разделе Справка по программе
Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.
Комментарии
Нужна совместимость с Microsoft Office 2010 под Ubuntu.
Знаю что на данный момент не популярная ОС по сравнению с Windows, но только ваш парсер удерживает меня от перехода с винды на убунту на работе.
Запускаю и устанавливаю Office через Playonlinux, Ubuntu 16.04 https://www.youtube.com/watch?v=hAl5rrP5sJI - видео тут.
Не запускать же виртуальную машину с вин7 на юбунту чтоб с офисом работать. При открытии вашей надстройки выдает ошибку и предлагает отправить отчет в Мс. Все "доп" компоненты и средства оффисы установлены (аналогичную установку делаю на винде и проблем не возникает). Возможно отсутсвуют какие то библиотеки - нужно знать какие и как их "поставить" доставить в wine да бы все работало как надо - если есть опыт - поделитесь возможно создайте инструкцию для пользователей линукс. Благодарю! Ну или крайний случай это аналогичное приложение для либры офис - но я думаю такое вы не будете делать - слишком много наверное переделывать надо будет.
Добрый день! можно подключить сервис rucaptcha.com - там доступно платное распознавание капчи, не очень дорого - около 4 копеек за капчу. парсер позволяет отправлять запросы на этот сервис и принимать ответ.
можем настроить под заказ, обращайтесь по скайпу antonmashkin
Добрый ден! Подскажите, пожалуйста, как с использованием куки бороться с капчей? На сайте, который парсится есть капча, но ни увеличение ожидания между запросами, ни использование прокси не помогает. Сайт reformagkh.ru
Этот вопрос лучше адресовать телепатам (которые знают, с какой страницы вы ссылки собираете, и какие там параметры указали)
А если нужна моя помошь, - напишите мне в скайп или не почту, с какого URL надо взять ссылки пейджера, и какие параметры вы задали у действия
Добрый день! Парсер никак не хочет находить ссылки пейджера, хотя HTML фильтр и маска указаны верно, подскажите, пожалуйста, как быть?
Очень даже спасибо)
Федор, пример регулярного выражения для поиска email есть в этом парсере:
http://excelvba.ru/programmes/Parser/samples/email_parser
Подскажите пожалуйста, получаю парсером содержимое в текстовом виде. В этом содержимом нужно найти и сохранить электронный адрес. Взять текст до и после не подходит потому что нет закономерности в тексте. Подходят регулярные выражения, но почему то не срабатывает. Можно увидеть пример использования регулярок в таком ключе?
Спасибо!
В настройках парсера, на вкладке ДОПОЛНИТЕЛЬНО, увеличьте время ожидания ответа с 6 секунд до 20, например
День добрый!
Подскажите, пожалуйста, как решить проблему: сайт, который выгружаю, очень долго грузится (более 6 сек) из-за большого объема данных, а оператор "Загрузить ИСХОДНЫЙ КОД веб-страницы" выдает ошибку Сервер не ответил за 6 сек. Но я знаю точно, что надо просто подождать и страница загрузится. Как решить эту проблему?
Спасибо.
Василий, у меня такое впечатление, что вы что-то не то настраиваете
Массив значений выводится наверняка же начиная не с 257-го столбца, — если надо выводить однотипные данные, начиная, к примеру, с 50 по 1000 столбцы, то в настройках задается вывод в столбец 50, со включенной опцией формирования остальных столбцов (там 2 варианта есть)
Но можно и увеличить количество столбцов в настройках
Откройте редактор реестра (Пуск - Выполнить - regedit), найдите ветку
HKEY_CURRENT_USER\Software\VB and VBA Program Settings\Parser\Settings
и создайте там новый строковый параметр с названием MAX_COLUMN и значением, например, 1000
PS: Если вы хотите в настройки парсера (в вывод на лист) добавлять (настраивая) 1000 столбцов, - вы явно перемудрили с настройкой. Всё делается намного проще. Могу настроить под заказ.
Здравствуйте. Подскажите в настройках "вывод на лист" в основных настройках, номер столбца максимальное количество устанавливается 256. А мне нужно больше!!! Делается массив значений в отдельные столбцы и у меня их около 1000.
Ильнар, да, я в курсе (что 10 дней вместо 15 даётся), позже исправлю
Установил сегодня 15.04.17 Parser.xla. Он показал, пробная версия программы . Осталось: 10 дней.
Не претензия!!! Это к информации. Для тестирования думаю хватит 10 дней
Большое спасибо - очень помогли!!!
Алексей, для этого сайта можно получить все результаты, не перебирая ссылки пейджера
Допишите в конец URL (до загрузки страницы по ссылке) текст &pages=1000, и тогда сайт выведет все результаты (точнее, первые 1000 результатов) на одной странице.
Должна получиться такая ссылка: http://www.geo-home.com/index.php?lang=ru&act=search&t=sale&c=new&nw=nbu...
Небольшая проблемка с настройками парсера - не могу прогрузить все ссылки пейджера. Вот сама страничка http://www.geo-home.com/index.php?lang=ru&act=search&t=sale&c=new&nw=nbu... и скриншотик https://www.screencast.com/t/k8qHXDFW
отсутствует префикс пейджера. Как быть в этом случае, как прогрузить все ссылки сраниц?
Евгений, из вашего вопроса непонятно, надо убрать лишние описания в процессе работы парсера, или по окончании его работы (отфильтровав таблицу с результатом)
Позвоните в скайп, попробую помочь
Добрый день!
После работы парсера получаю массив описаний товара, как оставить только те описания где более 200 знаков.
Заказали парсер для работы с предложениями на сайте Авито. Всё работает, помогает очень хорошо.
Особенно хочется отметить хорошую поддержку данного продукта. Сайт постоянно меняется, естественно нарушается работа парсера. Однако разработчики очень быстро присылают исправленные варианты, практически в день обращения.
Пользуемся уже около полугода. Спасибо.
Здравствуйте
По этому режиму инструкции нет, но там все просто - указываете столбец с исходными данными, и все значения из него по-очереди подаются на вход обработки в исходные действий
Игорь, здравствуйте! Гениальное ПО, спасибо!!! А у Вас есть видеоинструкция, где более подробно рассматривается функционал "брать данные с листа Excel, из заданного столбца" во вкладке "исходные данные"??? Пытаюсь разобраться самостоятельно, но без навыков программирования нелегко это))
Квадратные и фигурные скобки, - это, наверное, формат JSON
В парсере есть функция «Преобразовать JSON в XML», а после этого работаем как с HTML, поиском нужных тегов.
Подскажите, пожалуйста, какой функцией заменить все запятые в тексте кроме тех, которые внутри квадратных скобок и внутри фигурных скобок. Заменить на разрыв строки.
брандмауэр Windows отключен, антивирусов нет. Скайпа нет.
Проверьте, что брандмауэр Windows отключен, и что антивирусы не блокируют доступ экселю в интернет
Ну а если сами не разберетесь, - пишите в скайп, попробую помочь
Не помогло. mario.ua - ошибка "Сервер не ответил за 6 сек".
Возможно, у вас в системе где-то какой-то прокси прописан, или еще что-то в тоже же духе.
Парсеры, скачанные из примеров настроенных, должны работать (по крайней мере, недавно опубликованные)
На этом парсере проверьте - он 100% должен заработать: http://excelvba.ru/programmes/Parser/samples/mario.ua
Если не заработает - пишите в скайп, разберемся