Надстройка Parser для MS Excel: общие сведения
Предназначение программы: быстрый сбор любых данных с различных сайтов или файлов, с выводом результата в Excel.
Основные возможности:
- парсинг интернет-магазинов и любых других сайтов (соцсетей, каталогов, объявлений и т.д.)
- извлечение данных из файлов формата Word / Excel / txt / PDF
- скачивание файлов (изображений, документов, и т.п.)
- обновление цен по ссылкам (мониторинг цен конкурентов / РРЦ)
Особенности программы
Простота использования и настройки
- Запуск парсера нажатием одной кнопки на ленте Excel
- Для настройки парсеров не нужно знание программирования!
Достаточно минимально понимать HTML (что такое теги), и изучить 2 основные команды парсера (загрузка страницы, и поиск тегов). Этого достаточно для 90% задач. - Если сами не разберётесь с настройкой — всегда можно заказать нам настройку парсера под вашу задачу.
- Всё что нужно для работы парсера, это Windows 10 (или новее) и Microsoft Excel (версии 2010 или новее)
Иногда ещё нужен браузер Google Chrome (для работы с проблемными сайтами) - Можно настроить программу под несколько разных сайтов (задач), и легко переключаться между настройками через выпадающий список на панели инструментов программы.
Гибкая постобработка данных
- Множество текстовых функций для обработки полученной информации
- Разнообразные фильтры и функции перекодировки
- Работа с переменными и массивами данных
- Разбиение значений на отдельные элементы с индивидуальной обработкой
- Автоматический вывод характеристик товаров в отдельные столбцы
- Интеллектуальный поиск цен на страницах
- Поддержка форматов JSON и XML
Продвинутые сетевые возможности
- Несколько способов загрузки страниц — WinHTTP / WinAPI / WinINET / IE / Google Chrome
- Авторизация — поддержка входа в аккаунты на различных сайтах
- Региональные настройки — выбор географического региона для парсинга
- HTTP-запросы — поддержка GET и POST методов, конструктор запросов
- Cookies и Headers — полная работа с HTTP-заголовками и куки
- Многопоточность — до 200 одновременных потоков для ускорения работы
- Обход защиты — распознавание капчи через сервис RuCaptcha.com, паузы между запросами
- Браузерная интеграция — работа с защищёнными от роботов сайтами через Google Chrome
- Кеширование — сохранение данных для повторного использования
Неограниченные возможности поиска и навигации по сайту
- Рекурсивный поиск страниц на сайтах
- Поиск данных по HTML-тегам и их атрибутам
- Автоматическое обнаружение ссылок пагинации (пейджера)
- Специализированные функции для работы с HTML-таблицами
- Преобразование HTML в текст и пары "название-значение"
- Очистка HTML от лишних данных
Интеграция с Excel
- Чтение данных из файлов Excel для использования в парсинге
- Создание отдельных листов и файлов
- Динамическое формирование столбцов для вывода результатов
- Использование всех встроенных возможностей Excel (условное форматирование, формат ячеек)
- Удобная панель инструментов для запуска парсинга
Работа с файлами
- Сбор данных из файлов различных форматов (Word, XML, TXT, Excel, PDF)
- Обработка файлов из заданных пользователем папок
- Сохранение изображений и документов под заданными именами в настраиваемые папки
С момента выхода программы в 2014 году, её функционал постоянно развивался (вышли сотни обновлений), поэтому сейчас в парсере есть всё, что только может вам понадобиться для сбора данных из интернета.
Более подробно всё это описано в разделе Справка по программе
Дополнительные видео и подробное описание функционала можно найти в разделе Справка по программе
В программе можно настроить несколько парсеров (обработчиков сайтов).
Любой из парсеров настраивается и работает независимо от других.
Примеры настроенных парсеров (можно скачать, запустить, посмотреть настройки)
Видеоинструкция (2 минуты), как запустить готовый (уже настроенный) парсер
Если вам нужен готовый парсер, но вы не хотите разбираться с настройкой,
— закажите настройку парсера разработчику программы. Стоимость настройки под конкретный сайт - от 2500 рублей.
Настройка под заказ выполняется только при условии приобретения лицензии на надстройку «Парсер» (4000 руб)
Инструкция (с видео) по заказу настройки парсера
По всем вопросам, связанным с заказом, готов проконсультировать вас в Телеграм.
Комментарии
Я же писал, — надо запустить 2 копии Excel (они будут работать независимо друг от друга)
Поставили мою программу в автозапуск (галочка в окне "О программе" - "действия с надстройкой"),
запустили Excel, выбрали парсер из выпадающего списка.
Потом, через меню Пуск, запускаем ЕЩЕ ОДИН Excel, - в нём тоже автоматически запустится моя программа.
И теперь запускаем парсер и там и там (один и тот же, или разный, - неважно), - они должны работать независимо друг от друга.
Надо запускать пассеры из разных папок? Похоже у меня приостанавливается т.к. запускаю один и тот же с разными настройками сайтов.
Насчёт бага, - тут сложно сказать, из-за чего это.
Либо у Excel память заканчивается, либо место на диске под файлы кэша нехватает,
либо в какая-то хитрая веб-страница попадается, на которой парсер зависает
Отловить такой баг весьма проблематично (но могу попробовать, подключившись к вашему компу через teamviewer)
но я бы попробовал разбить задачу на несколько (не зная, что вы там настроили, не могу сказать ничего конкретного)
Позвоните мне в скайп, - я посмотрю ваши настройки, - может, посоветую чего.
Заодно покажу, как одновременно 2 парсера запустить (у меня на компе одновременно работают 2 независимых парсера)
У меня при запуске второго первый приостанавливается.
Нашел баг. При использовании кеша, если его объем становиться довольно большим (гигов 15) то сканирование идет, однако результат не выводиться. При сканировании с отключенным кешем, при достижении нескольких тысяч обработанных страниц парсер зависает намертво. Перезапуск эксель только помогает.
Здравствуйте
Этих сайтов «желтых страниц» — множество,
и я не могу вам дать ответ, не зная, с какого сайта с каких разделов что надо собирать.
Настроить, - можно (под заказ, настройка платная, - ибо там много времени на настройку уйдет)
Если на сайте сработает ограничение из-за большого количества запросов — я не виноват (некоторые сайты имеют подобные ограничения, - насчет вашего сайта у меня нет данных о наличии/отсутствии подобной защиты)
Высылайте на почту пример результата в виде файла Excel, и подробное описание, что откуда брать с сайта
Также укажите, в каком виде будут исходные данные (список интересующих вас категорий сайта)
Добрый день! Стоит следующая задача: сделать из сайта желтые страницы базу в Excel,номер телефона, e-mail,сайт. Только вот не со всего сайта, а с интересующих нас категорий и сайт желтые страницы по всему миру. Есть ли такая возможность и как настроить самому ,разбирался сам - количество запусков скоро закончиться ,хочу увидеть результат перед тем как купить.
Да, можно запустить несколько парсеров одновременно, — каждый в отдельно запущенном Excel:
А в одном Excel, — никак не получится, т.к. 2 макроса не могут выполняться одновременно.
Можно запустить несколько пассеров одновременно на одной машине??
Сергей, да, можно попробовать
Но, в вашем случае, настройка будет сложная (возможно)
(например, если вы в исходных данных указали марку авто, которой нет в выпадающем списке на сайте, — результат будет некорректным)
Нужен пример исходных данных и результата в файле Excel
Потом звоните в скайп, - обсудим.
Здравствуйте, Юлия
Думаю, что можно настроить (поскольку я не знаю, как найти на сайте заявки, и не вижу пример результата, - пока ничего конкретного не могу сказать)
от вас нужно:
1) описание, что откуда с сайта брать
2) пример результата в виде файла Excel
По цене - около 4 тр за готовое решение (лицензия на программу 2500 руб. + стоимость настройки 1000-1500 руб.)
Добрый день,
Интересует возможно ли с помощью Вашей надстройки получать данные с сайта на котором происходит расчет страховой премии по определенным заданным условиям.
Например мне необходимо рассчитать стоимость страховки на 15 разных автомобилей по трем различным вариантам. Каждая модель ТС имеет разную стоимость.
Фактически я хочу не руками каждый раз менять условия для расчета, а автоматизировать этот процесс - программа по заданному списку сама подставляет значения (например выбирает конкретную марку модель машины), нажимает кнопку расчет и сохраняет полученные данные в файл excel.
Д.День. Мой вопрос: есть сайты на которых есть формы заявок, скажите есть ли возможность парсить информацию (тел, емейл) с заполняемых заявок? например сайт stroim-sib.ru если да то стоимость услуги?
Добрый день,
Спасибо за оперативный ответ. Отчасти соглашусь, на текущий момент в моем случае действительно "все работает" спасибо за подробную консультацию по скайпу, но периодически появляются дополнительные задачи/подзадачи, при решении которых хотелось бы полностью понимать возможности программы, в том числе новые функции. А с ростом функционала парсера и числа пользователей, ваше время будет все более ограничено и подобных вопросов будет все больше. Поэтому, приобретая функционал хотелось бы иметь представление не о конкретной настройке парсера под прикладную задачу, а о всех потенциальный возможностях надстройки.
Надеюсь на ваше понимание, спасибо
Артур, со временем всё будет появляться
Написать полноценную инструкцию с описанием ВСЕХ возможностей, — требует очень много времени (пару месяцев)
Поскольку в 90% случаев настройкой программы занимаюсь я сам, - эта инструкция пока не настолько актуальна
Мне на данный момент проще вам по скайпу показать, как настроить программу под конкретный сайт, чем расписывать все возможные варианты использования программы.
Насчёт обновлений: если всё работает, зачем вам обновлять программу?
Обновления я, бывает, по нескольку раз в день выкладываю, - с мелкими доработками (например, по ходу настройки парсера под какой-то сайт понадобилась доп. функция - я сразу её добавляю)
Программа предназначена для решения конкретных задач, - если она настроена, и парсер работает, - я не вижу смысла в отслеживании пользователем обновлений, и ознакомлении с подробным описанием новых функций.
Скоро сделаю видеоинструкцию, а позже по каждому действию в программе будет отдельная статья.
Но когда это всё будет, - конкретно по датам пока сказать не могу.
Добрый день!
1. Уточните, когда появится внятное руководство с точечными примерами использования по каждой функции? На текущий момент не понятно предназначение 2/3 функционала парсера и возможностей его использования. Обращаться каждый раз по скайпу не всегда удобно.
2. Обновления вида: "+ добавлены новые действия" также неинформативны. Прошу хотя бы кратко пояснять список функций и их предназначение.
Спасибо
25 октября 2014 г. в 08:03 стало доступно обновление программы «Parser» (версия 1.0.8).
Изменения в новой версии программы:
Рекомендуем обновить программу до последней версии!
Пришлите, пож, мне на почту письмо для дальнейшего общения.
Насчёт сайта Росаккредитации, - да, можно
Загружаться только долго будет (12180 + 120000 = 132 тысячи запросов)
Но ничего невозможного нет
Стоимость настройки - 1500 рублей + стоимость лицензии 2500 рублей
Итого, 4000 рублей за готовое решение
Предлагаю разбить задачу на 2 части: сначала (первое нажатие кнопки) формирует таблицу из 120 тыс строк,
а потом (второе нажатие кнопки) догружает адреса и телефоны в имеющиеся строки
Это позволит останавливать второй этап (где 120 тыс страниц надо прогрузить), и потом продолжать с места остановки.
Добрый день! Есть сайт Росаккредитации, на нем реестры. Необходимо пройти по ссылке интересующего реестра (например, http://public.fsa.gov.ru/table_rss_pub_ts/), нажать на нем кнопку поиск. Результат >120 тыс записей, выводимых по 50 максимум. Задача: скопировать выводимую информацию (она уже в табличной форме) И!! пройти по каждой ссылке и вытащить дополнительную информацию (адрес, телефон) и подставить в эту же строку. Можно ли это провернуть силами данного макроса? Если да, сколько будет стоить адаптация под мою задачу?
Здравствуйте
Моя программа не копирует данные на другой сайт
Программа может скачать нужные вам данные, и вставить в таблицу Excel
И файлы сохранить под заданными именами (для каждого товара)
Соответственно, вы получаете таблицу Excel (для последующего импорта на сайт),
и папку с картинками (для последующей заливки на сайт по FTP)
Чтобы ответить, можно или нет настроить, - мне нужен пример результата в виде файла Excel (именно в том виде, какой вам нужен для сайта)
Ну и объяснения, где на каждом из сайтов взять данные для каждого столбца.
С конкретно этими сайтами - никаких сложностей быть не должно, парсер можно настроить почти под любой сайт.
Главное, чтобы вы могли объяснить, что с какого сайта брать, и в каком виде выводить.
Добрый день!
Есть 3 сайта:
http://www.karcher.ru /ru/Products.htm
http://www.grass.su /product2
http://www.tork.ru /produkty/philtr/?c=Air_freshener
Ваш скрипт может скопировать продукцию (полностью с картинками, описанием, характеристиками и т.д.). Необходимо для переноса на битрикс.
Можете ответить на указанный e-mail.
Спасибо!
Спасибо за информацию, пришлите тестовое письмо мне на электронку.
По сайту spb.arendator.ru - да, можно настроить
По картинкам - нужны все, или только первая?
Категорию объекта (офисное/торговое/складское) - в отдельный столбец выводить,
или разные категории на отдельные листы помещать?
Программа грузит все данные с сайта «с нуля»
Т.е. нажали кнопку, - не старая таблица обновляется, а новая формируется.
Сроки - примерно 1-2 дня (обычно настраиваю в день обращения)
По цене: стоимость лицензии 2000 руб + стоимость настройки около 2000 руб
Итого, 4 т.р. за готовое решение
От вас нужен пример результата в файле Excel (строка заголовка + 1 строка с данными)
Добрый день.
Цель - с ресурса spb.arendator.ru раздел "Объекты" перенести информацию о офисных, торговых и складских объектах в excel с последующей возможностью обновления.
Нужная информация по колонкам в excel
1.фото
2.название объекта
3.адрес объекта
4.общая площадь
5.назначение помещений
6.арендная площадь
7.класс (пример A+ A B B+)
8.этажность
9.остальное можно в доп.информацию
Вопрос реализуемо ли?
Цена? Сроки?
Заранее спасибо.
Пока примеров опубликовано очень мало, - на очереди к публикации около 30 примеров самых разных.
Вы лучше позвоните мне в скайп завтра днём, - я вам покажу, как что настраивать, на примере нужного вам сайта
От вас для этого надо: http://ExcelVBA.ru/help
Как раз то, что я искал. Но одна проблемка - не работает. Взял ваш первый пример, удалил данные с 20 строк выделил эти строки и запустил задачу. Ссылки заполнены в 19 строках, цена и количество в 6, название и описание не заполнено ни в одной строке. В настройках пробую тестировать, пишет такой результат "ОШИБКА: Неверная ссылка для загрузки веб-страницы"
Здравствуйте
Примеры будут (их очень много накопилось) - пока не доработал движок сайта для из быстрой публикации
Могу на вашем компе показать, что как настраивается (на примере ваших данных), - но только после 24 сентября (я сейчас в отпуске)
Ограничение количества запусков - не проблема, решим это всё. Напишите мне в скайп после 24 сентября
Здравствуйте.
Выложите пожалуйста самый простой пример для настройки программы.
Например имееются URL ссылки в столбце A таблицы
http://excelvba.ru/programmes/Parser?page=1
http://excelvba.ru/programmes/Parser
, в столбец B,C и далее, в зависимости от результата нужно занести информацию об авторе комментария со сканируемой страницы:
CodePublisher| администратора сайта| Юлия
администратора сайта|Sfera|Ихтиёр
и т.д
Количество бесплатных запусков заканчивается, разобраться не смог, поэтому и решение о покупке не могу принять. Спасибо.
2 сентября 2014 г. в 07:35 стало доступно обновление программы «Parser» (версия 1.0.6).
Изменения в новой версии программы:
Рекомендуем обновить программу до последней версии!