Надстройка Parser для MS Excel: общие сведения
Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.
Основные возможности:
- парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
- извлечение данных из файлов формата Word / Excel / txt / PDF
- скачивание файлов (изображений, документов, и т.п.)
- обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)
Особенности программы
Простота использования и настройки
- Запуск парсера нажатием одной кнопки на ленте Excel
- Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач. - Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
- Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами) - Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.
Гибкая постобработка данных
- Множество текстовых функций для обработки полученной информации
- Разнообразные фильтры и функции перекодировки
- Работа с переменными и массивами данных
- Разбиение значений на отдельные элементы с индивидуальной обработкой
- Автоматический вывод характеристик товаров в отдельные столбцы
- Интеллектуальный поиск цен на страницах
- Поддержка форматов JSON и XML
Продвинутые сетевые возможности
- Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
- Авторизация — поддержка входа в аккаунты на различных сайтах
- Региональные настройки — выбор географического региона для парсинга
- HTTP-запросы — поддержка GET и POST методов, конструктор запросов
- Cookies и Headers — полная работа с HTTP-заголовками и куки
- Многопоточность — до 200 одновременных потоков для ускорения работы
- Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
- Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
- Кеширование — сохранение данных для повторного использования
Неограниченные возможности поиска и навигации по сайту
- Рекурсивный поиск страниц на сайтах
- Поиск данных по HTML-тегам и их атрибутам
- Автоматическое обнаружение ссылок пагинации (пейджера)
- Специализированные функции для работы с HTML-таблицами
- Преобразование HTML в текст и пары "название-значение"
- Очистка HTML от лишних данных
Интеграция с Excel
- Чтение данных из файлов Excel для использования в парсинге
- Создание отдельных листов и файлов
- Динамическое формирование столбцов для вывода результатов
- Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
- Удобная панель инструментов для запуска парсинга
Работа с файлами
- Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
- Обработка файлов из заданных пользователем папок
- Сохранение изображений и документов под заданными именами в настраиваемые папки
С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.
Более подробно всё это описано в разделе Справка по программе
Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.
Комментарии
Здравствуйте. Я пытаюсь удалить картинку post запросами. А мне выдает такое сообщение Ошибка! Длина текстового ответа сервера = 0, в байтах: 0, ошибка -2147483638: Данные, необходимые для завершения этой операции еще не доступны.
Здравствуйте, Юрий.
Что-то не так настроили.
Ошибку исправить несложно, но я не телепат, чтобы угадать, в чем именно проблема.
Если готовы оплатить программу, - пишите в скайп, помогу исправить ошибку.
У меня постоянно загружает только 1 страницу результатов и так по кругу. Хотя я нашел все ссылки пейджера. Подскажите пожалуйста в чем может бить дело и как это исправить? Спасибо)
Прогружать все страницы результатов
Третий параметр действия:
http://excelvba.ru/programmes/Parser/actions/LoadHTML
Здравствуйте. Подскажите как в программе определить количество страниц пагинации если показано только 5, но при нажатии стрелки вправо появляется 6 и т.д.?
Если вы программу уже покупали, или готовы купить, - напишите в скайп, попробую помочь с макросом.
А какой текст макроса должен быть и как добавить?
Здравствуйте! На данный момент средствами парсера можно принудительно сделать только текстовый формат (путем добавления апострофа - ' - перед выводимым текстом). Все другие форматы можно установить при помощи макроса. Макрос можно добавить к настройке парсера и вызывать из неё же.
Здравствуйте, подскажите как задать в настройках парсера формат отображаемых данных в ячейке, столбце, например денежный или любой другой. Во вкладке "Вывод на лист" данной функции нет.
Благодарю!
Здравствуйте, Николай.
Сравнение картинок возможно. Загружаете картинку как обычную веб страницу, потом сравниваете полученное содержимое (как текст) с другой загруженной картинкой. Можно сравнивать не содержимое файлов (если оно будет работать некорректно), а MD5 хэш от содержимого картинки.
По таблицам замен, - такой функционал не планируется, поскольку не востребован другими пользователями. Но могу реализовать под заказ (платно)
И ещё один вопрос. Можно ли с помощью парсера коим образом узнать отличается ли картинка данного торгового предложения (ТП) от эталонной (нодовской) картинки? Раскрою вопрос, есть товар (нода), у него куча ТП, в которых при изменении параметра изменяется внешнее отображение товара. Но на сайте, который я запарсил, товарищи программисты на это наплевали, либо зашиваются и банально не хватает времени, дублируют картинку ноды в ТП, естественно названия картинок ТП тоже изменяются, по названию их никак не вычислить. И чтобы у себя на сайте не создавать клонов, можно как-нибудь их вычленять парсером?
Добрый день. На будущее, как пожелание, не могли бы вы в парсере реализовать действие - Добавить данные в таблицу замен (ТЗ). Парсер запарсил сайт, вывел данные в столбцы, заходим в это действие, выбираем ТЗ, если она создана, если нет, парсер создает новую ТЗ. Выбираем столбец с данными, допустим переменной {1} (полученных в результате парсинга сайта), в котором будут содержаться данные "Что заменять". Выбираем столбец с данными, в котором будут содержаться данные "На что заменять". По окончании парсинга эти данные импортируются в ТЗ. Допустим, через неделю мы снова запустили парсер, парсер проверяет появились ли новые значения данных и если ответ положительный, продлевает список замен в ТЗ. Надеюсь, вы не посчитает это действие бесполезным...
Добрый день, Николай!
Скорее всего, не загружается страница. Может быть блокировка со стороны сайта, а может быть неполадки в интернет-соединении или работе сайта. Если уверены, что блокировки нет, то можете поставить попытку повторной загрузки страницы через небольшую паузу.
Добрый день не подскажите почему так. Ситуация три столба А1 Б1 С1. А1=URL Б1=Keywords С1=Заголовок H1. Все данные выводятся корректно иногда происходит сбой не выводит данные Б1 или С1.
Добрый день!
Пока что инструкции по получению исходных данных с листа Excel нет, но там принципиально никаких отличий от других режимов нет. Указываете столбец или маску для поиска, в результате найденные данные из этого столбца (или из найденных ячеек) подставляются в исходные значения.
Для обращения к другим столбцам используете маску вида {1!}, где 1 - это номер столбца.
Если не разберетесь, напишите мне в скайп - antonmashkin
Здравствуйте.
Искал инструкцию по получению исходных данных для парсинга с листа Excel, не нашел.
Можно ли увидеть пример или инструкцию?
Заранее спасибо
Здравствуйте.
Можно узнать как Вы реализовали многопоточную загрузку?
Пишу себе парсер - 40К страниц грузит нереально долго)
Да, есть такая возможность. Обычно либо рядом есть ссылка на большое изображение, либо большое изображение получается путем замены размеров в ссылке на изображение.
А есть ли возможность загрузки нескольких изображений товара, если одно из них большое, а остальние маленьикие, то есть открываются только после нажатия на них?
Здравствуйте, Павел.
Первого пока нет (но будет со временем, есть в планах такое сделать), второе уже есть (закрыть парсер от редактирования), но эта возможность пока доступна только мне.
Есть ли в программе возможность скомпилировать парсер в отдельную надстройку (программу) или как-то защитить парсер паролем от исправлений?
Чуть позже будет инструкция по плагинам
Добрый вечер! По плагинам когда ждать информацию.
Здравствуйте, Виталий.
Это Google Recaptcha v.2, программа умеет такую обрабатывать (действие «Решить Google Captcha v.2»)
Но инструкция по этому действию пока не готова.
Можем настроить под заказ.
Здравствуйте.
Подскажите, как работать с капчей? Такого вида капчу стандартным инструментом вашей надстройки обойти можно? https://prom.ua/captcha?url=aHROcDovLZhth-IBSaZIkcySuZXQu%20dWEchMyOTc3O...
Сергей, парсером можно скачать фото в папку, или вывести ссылки на загрузку фото в столбец таблицы Excel
(подготовив исходные данные для следующего шага)
А потом нужно запустить надстройку для вставки картинок в Excel (причем собственно вставку изображений на лист включать необязательно), — эта надстройка сможет вывести в дополнительный столбец размеры фотографий (взяв их из папки, либо скачав по ссылкам)
Возможно ли как парсером получить характеристики фото? Т.е. есть сайт www.host.com/img/foto.jpg к примеру разрешение этого фото 320х240. Как парсером получить разрешение 320х240? Если это возможно, каким будет алгоритм?
Добрый вечер, подскажите, куда нужно вставлять действие - "Запланировать запуск парсера"? Можно закрыть парсер или он всегда должен быть открыт? Можно по подробнее расписать про это действие или пример с этим действием, если он (пример) существует на сайте, я поискал, не нашёл...
Алексей, по поводу взятия цены со страницы, я вам в скайпе написал, какие 2 действия нужно использовать:
Если вы не разобрались, и не смогли настроить, - могу я настроить, под заказ
(об этом я вам тоже писал)
возможно ли парсировать из несколько excel файлов — я не знаю, что вы под этим подразумеваете
Скорее всего, возможно