Парсер сайтов и файлов (парсинг данных с сайта в Excel)

Надстройка Parser для MS Excel: общие сведения

Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.

Основные возможности:

  • парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
  • извлечение данных из файлов формата Word / Excel / txt / PDF
  • скачивание файлов (изображений, документов, и т.п.)
  • обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)

Особенности программы

Простота использования и настройки

  • Запуск парсера нажатием одной кнопки на ленте Excel
  • Для настройки парсеров не нужно знание программирования!
    Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач.
  • Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
  • Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
    Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами)
  • Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.

Гибкая постобработка данных

  • Множество текстовых функций для обработки полученной информации
  • Разнообразные фильтры и функции перекодировки
  • Работа с переменными и массивами данных
  • Разбиение значений на отдельные элементы с индивидуальной обработкой
  • Автоматический вывод характеристик товаров в отдельные столбцы
  • Интеллектуальный поиск цен на страницах
  • Поддержка форматов JSON и XML

Продвинутые сетевые возможности

  • Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
  • Авторизация — поддержка входа в аккаунты на различных сайтах
  • Региональные настройки — выбор географического региона для парсинга
  • HTTP-запросы — поддержка GET и POST методов, конструктор запросов
  • Cookies и Headers — полная работа с HTTP-заголовками и куки
  • Многопоточность — до 200 одновременных потоков для ускорения работы
  • Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
  • Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
  • Кеширование — сохранение данных для повторного использования

Неограниченные возможности поиска и навигации по сайту

  • Рекурсивный поиск страниц на сайтах
  • Поиск данных по HTML-тегам и их атрибутам
  • Автоматическое обнаружение ссылок пагинации (пейджера)
  • Специализированные функции для работы с HTML-таблицами
  • Преобразование HTML в текст и пары "название-значение"
  • Очистка HTML от лишних данных

Интеграция с Excel

  • Чтение данных из файлов Excel для использования в парсинге
  • Создание отдельных листов и файлов
  • Динамическое формирование столбцов для вывода результатов
  • Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
  • Удобная панель инструментов для запуска парсинга

Работа с файлами

  • Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
  • Обработка файлов из заданных пользователем папок
  • Сохранение изображений и документов под заданными именами в настраиваемые папки

С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.

Более подробно всё это описано в разделе Справка по программе

Видеоинструкция
YouTube
VK Video
RuTube

На видео рассказывается о работе с программой, и показан процесс настройки парсера интернет-магазина:

Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе

В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.

Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)

Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер

Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)

Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.

Как скачать и протестировать программу

Комментарии

Для разных капч - разный алгоритм
вы не написали ссылку на сайт — потому, посмотреть я не могу — соответственно, подсказать тоже не получится
PS: возможно, кеширование забыли отключить в настройках на вкладке Дополнительно

Добрый день, не удается авторизоваться при работе через парсер.
На нужном сайте стоит капча на авторизацию, делаю так:
-грузим страницу
-диалог. окно ввода капчи
-сохраняем результат в переменную
-авторизуемся, подставляя введенные данные капчи
Диалоговое окно ввода капчи всегда показывает одну и ту же картинку.
Ссылка на капчу выглядит так http://****.ru/Captcha
Из браузера всегда разные картинки, из парсера - одна и та же.
Что то не так в моих действиях?

Здравствуйте, Антон
1) что-то не так настроили.
Там немного исправить настройки, и всё заработает.
Если готовы оплатить программу, - напишите мне в скайп, подскажу, что как сделать
2) раньше работал, но сейчас стал проверять, - почему-то снова не работает
Исправлю в следующих версиях программы
(пока можно заменить на английские, - тогда точно заработает)

Добрый день! Пытаюсь настроить парсер под свою задачу- есть XML файл примерно такого вида:

<СписокЭлементов>
<Объект>
<ТипОбъекта>Панель<ТипОбъекта>
<Наименование>Фасад<Наименование>
<Длина>184.5<Длина>
.....
(удалил здесь / из закрывающего тега, чтобы отображалось корректно)
Необходимо для некоторых тегов создавать столбцы и выводить туда массив значений по 1 значению в каждую строку.

1) С помощью запроса Xpath получилось вывести нужные данные, но парсер выводит весь массив (значения через разделитель) в одну ячейку. Как вывести каждый элемент массива в отдельную строку?
2) Работает ли поиск HTML тегов, если теги прописаны кириллицей? У меня не получилось, но как только тег пишется латиницей, то все работает нормально. Можно ли преобразовать названия тегов в латиницу, при этом значения между ними не менять?

Спасибо.

Здравствуйте, Юрий. Спасибо за отзыв!
Насчет форума - были такие мысли, но пока я плохо представляю, как это все реализовать
Возможно, в будущем что-то подобное реализую

Уважаемые разработчики!

Большое спасибо за качественный продукт и адекватные цены за его настройку, т.к. некоторые моменты требуют детального изучения, если что-то хочешь сделать самостоятельно. Очень грамотно подготовлены видеоинструкции.

В качестве пожелания:
Было бы очень удобно работать с ошибками/донастройками в рамках имеющегося личного кабинета. В неё можно было бы завести заказ и формате форума или обмена сообщениями с вложениями решать возникшие проблемы. Большая просьба рассмотреть такую возможность.

Удачи вам в развитии вашего продукта!

Алексей, на некоторых компах есть проблемы со скачиванием файлов по протоколу HTTPS средствами Windows (что-то в политиках безопасности не так)
В настройках загрузки, на 4-й вкладке «Авторизация», поставьте галочку «Требуется авторизация при скачивании»
Тогда загрузка файла будет выполняться другим способом, — и, скорее всего, всё заработает (если правильно формируется ссылка на скачивание и путь к сохраняемому файлу)

Доброго времени суток!
Спасибо огромное за отличную программу!
Всё получилось самостоятельно настроить, но никак не могу разобраться с загрузкой картинок :(
1) В настройках на вкладке основная информация галочка поставлена на "Выполнять загрузку файлов"
2) все остальные настройки (как в видео инструкции) выполнены по аналогии с использованием переменной imageURL
3) В результате получаем
Ошибка скачивания файла (попыток: 2)
Не удалось скачать файл по ссылке: https://t*.ua/image/cache/data/1/2018/032018/22/golf%205-600x600.jpg
Путь к создаваемому файлу: G:\*\*\Downloads\t*.ua\golf 5-600x600.jpg
Могли бы вы подсказать в чем может быть проблема?
Заранее благодарен!

Здравствуйте
Одним действием тут не обойтись, нужен вызов набора действий, в котором будет 6 действий.
Если готовы приобрести программу, напишите мне в Скайп, подскажу, что как сделать

Здравствуйте. Подскажите пожалуйста!!! Есть массив характеристик товара при выводе на лист.

литой рычаг
класс расхода воды Z
аэратор s-pointer eco Caché M 24 x 1
ограничение расхода воды до 8,0 л/мин
керамический картридж с ограничителем горячей воды
донный клапан G 1 1/4
гибкая подводка G 3/8
класс шума I

Как сделать так что б первая буква была заглавной? А остальные все маленькие. И нужно только что б только первая буква менялась.

Какой порядок действий должен быть?

Посмотрите справку по действию ReplaceTags

Искомые теги: a
Тип замены: ReplaceOuterHTML
Шаблон замены: [=text]

Работает, спасибо! А как сделать чтобы при удалении тега а остался текст гиперссылки

Действие Поиск тегов, где первый параметр - img, а четвертый параметр - DeleteTags, удалит из html все картинки
Аналогично с гиперссылками, только там тег a

Подскажите пожалуйста, как удалить все теги гиперссылок и изображений из текста, оставив остальные и сохранив текущее форматирование?

Что такое сайт ЕИС - zakupki.gov.ru? если да, то можно с определенными ограничениями. Звоните по skype: antonmashkin, расскажу подробности.

с сайта ЕИС закупки может парсить?

Функционал парсера мало отличается от функционала вируса.
Так что это нормально.
Добавьте в исключения антивируса, и пользуйтесь

У меня вирус какой то обнаружил в фале. Поместился в карантин.

Здравствуйте.
Действие есть такое в парсере, - Количество элементов массива

Добрый день!

Подскажите, пожалуйста, как подсчитать кол-во элементов в массиве и вывести это число в ячейку?

Александр, вы всё правильно поняли
первым действием, ставите СОХРАНИТЬ ЗНАЧЕНИЕ В ПЕРЕМЕННУЮ с именем art

потом. когда нашли результаты поиска, если прямо в результате поиска выводится артикул, - то проверяете текст результата поиска, и только потом из него берете ссылку на товар (когда останется один результат поиска, после применения действия ПРОВЕРКА НЕ ВЫПОЛНЕНИЕ УСЛОВИЯ), либо (если искомый артикул можно увидеть только на странице товара) берете первые 10 результатов поиска, получаете ссылки на товары 910 штук), прогружаете из тут же все (без подуровня), и потом та же ПРОВЕРКА НА ВЫПОЛНЕНИЕ УСЛОВИЯ

В действии проверки, условие ставите СОДЕРЖИТ, а параметр - %art%

Здравствуйте! Подскажите решение, пожалуйста:
берем значения из заданного столбца + пара действий
попадаем на результат поиска по артикулу (значению).
результат поиска это ссылки на карточки товаров
нам нужно перейти только в одну (в ту которая содержит артикул)
количество ссылок всегда разное
порядковый номер ссылки тоже всегда разный, сайт предлагает замены, аналоги и т.д.
понимаю что теоретически надо через выполнение условия, но как задать условия правильно?
или иное решение может есть - подскажите пожалуйста как быть

Отличный парсер, используем его для сбора данных от поставщика, (у нас магазин автозапчастей) очень гибкие настройки, прост в управлении, всегда актуальные обновления))

отзывчивые и профессиональные специалисты по настройке и тех поддержке парсера...
Спасибо разработчикам и всем кто развивает это продукт.
Добра вам и процветания!!

Вообще-то, я ни разу не использовал больше 6-7 уровней
Если вам нужно больше 15 уровней, - наверняка, вы перемудрили с настройкой
Уровни эти, в принципе, и не нужны, - они лишь экономят память компа (подразумевается, что на выходе каждого из подуровней - несколько результатов)

Если предположить, что на каждом подуровне - всего 3 результата, - то на вывод будет подано 14 миллионов значений, - это на лист не влезет даже (надеюсь, вы не решили спарсить весь гугл или фейсбук...)

Добрый!!! Подскажите возможно ли как-то увеличить количество вложенных уровней? У программы их 15.

Михаил, тут можно и без подуровней, должно работать
Либо из одного набора действий вызывать другой (по сути, это аналогично подуровням)

Не работает так, я так понимаю, нужны подуровни.
Отдельным парсером все работает.
Т.е. первым делом в исходных данных «Получить названия листов», (массив)
А в подуровне 2 уже «Активировать лист в книге» и «Сохранить таблицу в формате CSV».
Хотел организовать это действиями одного прасера, т.к. в имени сохраняемого CSV есть переменная, получаемая парсером

Здравствуйте, Михаил
Между действиями «Получить названия листов» и «Сохранить таблицу в формате CSV» добавьте действие «Активировать лист в книге»
Ну и убедитесь, что имена файлов CSV будут разными, для разных листов файла

Добрый день, Игорь!
Подскажите, пожалуйста, как настроить сохранение страниц в CSV.
Суть такая: парсер отработал, в итоге получается екселевский файл с 20-30 страничками.
в Parser_Finish делаю Получить названия листов и Сохранить таблицу в формате CSV.
Но т.к. получается массив - сохраняется только последний лист.
Можно как то решить это без запуска другого парсера? Спасибо!

Я не сталкивался с утечкой памяти уже давно
Напишите мне в скайп, отправите мне файл настроек парсера, вызывающий утечку памяти, - я посмотрю, что можно сделать.