Надстройка Parser для MS Excel: общие сведения
Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.
Основные возможности:
- парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
- извлечение данных из файлов формата Word / Excel / txt / PDF
- скачивание файлов (изображений, документов, и т.п.)
- обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)
Особенности программы
Простота использования и настройки
- Запуск парсера нажатием одной кнопки на ленте Excel
- Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач. - Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
- Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами) - Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.
Гибкая постобработка данных
- Множество текстовых функций для обработки полученной информации
- Разнообразные фильтры и функции перекодировки
- Работа с переменными и массивами данных
- Разбиение значений на отдельные элементы с индивидуальной обработкой
- Автоматический вывод характеристик товаров в отдельные столбцы
- Интеллектуальный поиск цен на страницах
- Поддержка форматов JSON и XML
Продвинутые сетевые возможности
- Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
- Авторизация — поддержка входа в аккаунты на различных сайтах
- Региональные настройки — выбор географического региона для парсинга
- HTTP-запросы — поддержка GET и POST методов, конструктор запросов
- Cookies и Headers — полная работа с HTTP-заголовками и куки
- Многопоточность — до 200 одновременных потоков для ускорения работы
- Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
- Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
- Кеширование — сохранение данных для повторного использования
Неограниченные возможности поиска и навигации по сайту
- Рекурсивный поиск страниц на сайтах
- Поиск данных по HTML-тегам и их атрибутам
- Автоматическое обнаружение ссылок пагинации (пейджера)
- Специализированные функции для работы с HTML-таблицами
- Преобразование HTML в текст и пары "название-значение"
- Очистка HTML от лишних данных
Интеграция с Excel
- Чтение данных из файлов Excel для использования в парсинге
- Создание отдельных листов и файлов
- Динамическое формирование столбцов для вывода результатов
- Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
- Удобная панель инструментов для запуска парсинга
Работа с файлами
- Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
- Обработка файлов из заданных пользователем папок
- Сохранение изображений и документов под заданными именами в настраиваемые папки
С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.
Более подробно всё это описано в разделе Справка по программе
Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.
Комментарии
Здравствуйте, Роман.
Циклы не нужны
В вашем примере, достаточно 2 действия:
1) Разбить текстовую строку на массив (получим массив из 3 названий парсеров)
2) Запустить другой парсер (в это действие будут поданы элементы массива по очереди, и 3 этих парсера запустятся один за другим)
Чем не цикл? Зачем что-то изобретать?
Касательно счётчика, ссылку посмотреть не смог (она ведет на заблокированный ресурс)
Вы просто перемудрили с настройками, - этот же счётчик увеличивается где-то другими действиями
Игорь, спасибо за способ с ПДФ файлом, это многократно быстрее и больше нет ошибок из-за того, что IE не успевает иной раз прогрузить файл.
По поводу циклов, я бы тоже от них отказался, но не во всех случаях понимаю, как это сделать, не городя огород. Например, нужно запустить несколько парсеров, список этих парсеров берется из ListBox, по виду Парсер2|Парсер6|Парсер10. Как их засунуть по одному в действие "Запустить другой парсер", ведь массив туда никак, надо разбивать, и циклы вижу лучшим решением.
Кстати, чуть не забыл, вот случай цикла, когда он отрабатывает неправильно. <ссылка удалена> Закономерность такая - добавляется очередной массив при следующих значениях счетчика: 3,5,8,12,17,23,30 и т.д. То есть увеличение идет: +2,+3,+4,+5,+6 и т.д.
... а я цикл на "Вернуться к действию" построил, правда результат пока нестабилен ;) но это наверное из-за некорректной привязки к тегам.. Я так думал....
Олег, в этом случае надо полностью перенастраивать парсер (совсем другой принцип настройки, - формируя массив этот в исходных данных, по последнем подуровне)
На уровне одной галочки, в нынешнем варианте программы, проблема не решаема.
Роман, по вашим вопросам:
1) по переменным на форме парсера, - там далеко не всё отлажено в плане интерфейса. Потом как-нибудь доделаю.
Эти переменные крайне редко используются, и, в основном, мной. (не особо они нужны)
Я просто закрываю настройки парсера после изменения переменных и сохранения парсера, - и тогда переменные нормально отображаются.
2) Проверка на выполнение условия. Параметры 5 и 6 введены недавно, редко они нужны. Назвал параметры как мог, думал что будет понятно
Позже опишу этот момент в справке
3) возможность "Вернуться к действию" (аналог GoTo в программировании) - крайне не рекомендуется к использованию. Лично я ей вообще не пользуюсь. Сделал по просьбе моих коллег, которые изредка её применяют
Злоупотребление этой командой, в сочетании с кучей действий в одном списке, приводит к путанице. Используйте наборы действий, которые можно вызвать из любого списка действий (аналог вызова процедур / подпрограмм в программировании)
4) Касательно возможности визуально разграничить строки на отдельные блоки и подписать их, — тоже думал об этом. Тоже иногда хочется подписать.
Может когда и сделаю
5) Отключенные строки при копировании/перемещении в буфер обмена становятся невидимыми
Да, есть такое. Недоработка. Исправлю в будущем
6) Насчёт кнопок для Parser_Start — не вижу необходимости
Очень редко пользуюсь
7) По примечанию - такую возможность делать не буду (кроме вас, вряд ли кто-то когда-то об этом задумывался)
8) Размер любого файла (хоть PDF, хоть любого другого) можно определить, применив 2 действия:
9) такой возможности пока нет
В планах сделать подстановочный код типа {ColumnIndex} для получения номера текущего столбца
Как развернуть вывод массива, что бы он выводился не во много столбцов а во много строк (1 элемент -1 строка).
В принципе (наверное) можно ввести "галочку" - поменять местами столбцы и строки.
Можно конечно потом транспонированием поменять.... но это доп обработка.
Добрый день. Хотелось бы несколько пожеланий высказать и задать пару вопросов.
-(Основная информация – переменные – изменить/удалить переменные). Не работают кнопки «Создать» и «Клонировать». А если поставить галку «Скрытая» и сохранить изменения, то, при снятии галки в дальнейшем, переменные не становятся видимыми, помогает только удаление переменной.
-(Действия – Проверка и сравнение – Проверка на выполнение условия). «5: Проверять другое значение» и «6: Другое проверяемое значение». Названия вводят в заблуждение. Много дней прибывал в полной уверенности, что здесь задается дополнительное значение, на которое также проверяются имеющиеся в исходном значении данные, после проверки значения в пункте 2, т.е. если проходит по пункту 2, потом пункту 6, то производится действие. Даже не сомневался, что именно так и работает, пока случайно не наткнулся в демо парсере на пример использования этой функции с задействованными 5 и 6 пунктами. Крайне удобная функция, но, полагаю, что многие ей не пользуются по тем же причинам, что не пользовался и я.
- «3: Действие при выполнении условия (Вернуться к действию). Катастрофически не хватает возможности, чтобы в момент введения номера строки, на которую следует вернуться/перескочить, шла привязка к действию в этой строке, а не к самой строке – если не по умолчанию так, то хотя бы опционально (может быть галку «привязка к действию»). Я понимаю, что когда знаешь вдоль и поперек парсер, то нет острой необходимости что-то переделывать на ходу, вставлять строки, возвращаться, менять алгоритм, но когда ты новичок, а один уровень парсера состоит из нескольких десяток строк с ветвящимися условиями и переходами по всему уровню взад и вперед, то любая вставка новой строки оборачивается просто трагедией с перестановкой всех номеров в «Вернуться к действию».
- Также очень сильно не хватает комментариев или хоть какой-то возможности визуально разграничить строки на отдельные блоки и подписать их. Или просто отделить пустой строкой с комментарием, или дополнительно изменять фон строк. Сейчас я пользуюсь костылями - вставляю строку в начале блока строк, отключаю ее и пишу в ней комментарий, что хоть и помогает улучшить восприятия больших парсеров, но недостаточно. Эти две проблемы (вместе с «Вернуться к действию»), которые наиболее старательно вставляют палки в колеса при создании больших, многозадачных, разветвленных парсеров.
- Отключенные строки при копировании/перемещении в буфер обмена становятся невидимыми.
- Не хватает кнопки, которую можно нажимать, находясь на любом подуровне, чтобы сработали «Парсер Старт» и все предыдущие подуровни. Иногда очень неудобно прыгать от «Набора Действий» или «Вывода на лист» к энному подуровню через «Парсер Старт» и все предыдущие подуровни, и так много раз к ряду. Если бы можно было в «Наборе действий» иметь такую же кнопку, было бы совсем хорошо, т.е. чтобы в «Набор действий» приходил первый результат оттуда, где вставлен этот «Набор действий». А уж если бы «Набор действий» знал, сколько раз он вставлен в парсер, с возможностью указания его порядкового номера в парсере и получения оттуда данных, было вообще круто, но это я уже расфантазировался.
-(Вывод на лист – Список столбцов для вывода – Формат – Примечание). Не хватает возможности убрать красный треугольник примечания у ячейки, если само примечание поступает из переменной пустое.
И пару вопрос:
- Может ли парсер определять размер файлов, в частности ПДФ? Сейчас для сравнения актуальности скачанного с сайта файла с хранящимся на компьютере, приходится каждый открывать через IE, копировать текстовое содержимое и только потом сравнивать.
- Как обратиться к гиперссылке, не зная заранее номер столбца? К сожалению, не работают переменные такого вида: {=B2@} или {B2@} и соответственно {={ColumnLetter}{row}@} или {{ColumnLetter}{row}@}, только по номеру столбца типа {1@}. При этом переменные такого вида, но без гиперссылки, работают исправно.
Спасибо.
Кнопка «Редактировать список действий» всегда присутствует там, где показано на видео
Не может быть, чтобы кнопки не было (отправьте скриншот формы настроек мне на почту)
Добрый день,почему-то то, как выглядит настройка на видео, не совпадает с текущим представлением.
После того, как задается режим "фиксированное исходное значение" вы внизу нажимаете "Редактировать список действий",
однако у меня в настройках этой кнопки нет.
Вкладка Вывод на лист - подвкладка Настройки листа для вывода
Цитата из справки:
Добрый день!
Скачал пробную версию, при парсинге парсер заполняет только одну строчку ячеек и постоянно заменяет новым значением.
В итоге вместо списка в итоге получаем только одно последнее значение.
Подскажите, в чем может быть проблема?
Александр, не используйте кодировку gzip. В 99.9% случаев, всё работает и без неё.
Здравствуйте Игорь. При работе парсера выходит ошибка "Ошибка расшифровки GZIP: библиотека gzip.dll не установлена в системе". Файл gzip.dll находиться в папке Мои документы.
Здравствуйте, Евгений
Прокси разные бывают, - "анонимные" и "прозрачные"
Через некоторые прокси ваш IP адрес виден. Через некоторые - нет.
Игорь, добрый день!
Можете подсказать, как работают прокси в парсере, не могу понять.
Прописал в парсере прокси, выводит сообщение "Активация прокси сервера: #1", например. Но если я пытаюсь загрузить исходный код страницы нужного мне сайта, то он определяет мой IP-адрес.
Можете вкратце описать как работают прокси с действиями в парсере или выложить небольшой пример.
Заранее спасибо!
Нет, так не задумано
Видимо, на этом компе когда-то ранее эта программа запускалась,
потому, 10 дней с момента первого запуска уже прошли.
Напишите мне в скайп или на почту, решим проблему.
Ну как бы при первом запуске рассказывает, что пробный период закончился :-(
Это так задумано?
Просто удалите файл надстройки, и папку Настройки парсеров.
Предварительно, если включали опцию автозапуска, отключите её (О программе - Опции)
Подскажите, как полностью удалить эту надстройку и все что ее касается? Инструкция по удалению есть? Где посмотреть можно?
Здравствуйте, Виталий.
Всё это возможно.
По цене ничего не могу сказать, пока нет четкого задания.
Здравствуйте! Скажите, пожалуйста, получится ли реализовать следующее:
1. На сайте, который нужно спарсить, таблицы с данными подгружаются после выбора нужных значений из выпадающего списка. Мне нужно чтобы я в excel создал такие же выпадающие списки, и, при выборе нужных мне значений парсер брал данные с таблиц, значия которых, я выбрал в excel.
2. Нужно парсить данные в разные файлы, в разные вкладки. Файлы и вкладки создам сам, и нужно будет парсить в нужные мне ячейки.
Если да, постараюсь подробно расписать в задании, что я от вас хочу. Также интересует цена вопроса, сильно ли изменится от стандартной из-за заморочек всяких?
Александр, а настройках этого столбца в парсере, на вкладке Формат, есть галочка «Перенос текста»
Включите её, и проблема будет решена
Игорь здравствуйте, подскажите получил значения в парсере в виде четырех наборов цифр, разделенных переносами. При выводе в Excel отображается в ячейке в оду строку без переносов, хотя при просмотре в строке формул они разделены переносами http://prnt.sc/my1tq8. Если встать на эту ячейку и щелкнуть в строке формул а потом Enter, в ячейке значения выстраиваются с учетом переносов, но таких строи и значений в моем проекте очень много. Подскажите как перенести такие данные с переносами.
Игорь, так ведь парсер и так в коде страницы ищет? Или вы что-то другое имеете ввиду..
То есть я выгружаю исходный код. И пытаюсь найти там штуку, которая в коде страницы выглядит вот так "...id="js-average-rating">9.15/10<...".
Пытаюсь вытащить 9.15/10, но в парсере выводит "...id="js-average-rating">N/A<...".
Потому что он мне выгружает код страницы изначальный, без выполненного действия по нажатию на всплывающую вкладку и, соответственно, отработавшего скрипта.
С помощью IE, я так понял, это может работать, если осуществить действие щелчка по элементу, т.е. открытие этой вкладки?
Виктор, тут 2 варианта:
1) найти эти данные (которые потом использует скрипт) в коде страницы (например, она в javascript переменной могут быть)
2) загружать страницу с использованием браузера Internet Explorer, - тогда скрипты отработают
По копипасту, - всё везде работает (если параметр действия подразумевает ввод пользователем данных)
Т.е., если можно ввести вручную что-то, то можно и вставить через Ctrl + V
Игорь, добрый день!
Подскажите, пожалуйста. Парсил 3 значения со стандартного формата странички. Недавно интерфейс на сайте поменяли и вывели 1 из 3 значений на всплывающую вкладку. Парсер теперь оттуда забирает только N/A или 0, потому что цифровое значение там появляется с выполнением jскрипта. Каким образом теперь можно вытащить нужное значение с помощью парсера?
Скажите, как в программе работает копипаст? Имею ввиду, что при настройке некоторые данные приходится вбивать руками. Функция копировать-вставить как будто недоступна.
Александр, я не консультирую по вопросам настройки программы под сайты.
Можем настроить под заказ.
Подскажите пожалуйста как на этом сайте https://www.daz3d.com/shop/ получить ссылки пейджера? И какой командой можно перейти на следующую страницу каталога?
Алексей, все ссылки на полноразмерные изображения присутствуют в html коде страницы. Надо только поискать.
Вопрос, а как быть с фенси боксами, в html он не указан, выловить через что???Каким образом? Просто в привьюхе есть фото, но она маленькая, а нужна большая из фенсибокса.
Спасибо