- Как заказать парсер сайта
- Видеоинструкции по настройке
- Возможности программы-парсера
- Действия в парсере
- Раздел «Работа с HTML»
- Раздел «Текстовые»
- Раздел «Перекодировка и форматирование»
- Раздел «Проверка и сравнение»
- Раздел «Разное»
- Раздел «Функции массива»
- Раздел «Числовые»
- Раздел «Работа с переменными»
- Раздел «Листы и книги Excel»
- Раздел «Обработка файлов из папки»
- Раздел «HTTP запрос»
- Раздел «Internet Explorer»
- Раздел «Управление парсером»
- Раздел «Веб-запросы, XML, макросы VBA»
- Недокументированные действия
- Работа с браузером (Chrome и т.п.)
- Отключенные (устаревшие) действия
- Интерфейс программы
- Использование браузера
- Ошибки при парсинге
- Вывод массива значений в одну ячейку
- Обход защиты Qrator, Incapsula и CloudFare
- Ошибка: сервер не ответил за 9 секунд
- Парсер перезаписывает данные в первой строке листа
- Невозможно запустить макрос, - нет доступа к проекту VBA
- Ошибка Compile error in hidden module
- Ошибка загрузки страницы по HTTPS (SSL Error)
- Дополнительные возможности
- Зарезервированные переменные и подстановочные коды парсера
- Кеширование страниц в парсере
- Переменные в парсере
- Обновление строк в существующей таблице при парсинге
- Переключение между наборами настроек в парсере
- Запуск мониторинга цен по расписанию
- Запуск парсера по расписанию
- Программный запуск парсера из внешнего макроса
- Доп. опции парсера (файл parser.ini)
- Наборы действий
- Прочие статьи по настройке парсера
- Коды останова парсера, и перехода на другое действие
- Плагины для парсера
- Запуск нескольких парсеров по очереди
- Обработка капчи (Captcha) в парсере
- Прокси серверы
Парсинг текстовых файлов |
Парсер поддерживает любые текстовые файлы:
- .txt, .csv и т.п. — «обычные» текстовые файлы
- .xml, .html, .json и т.п. — файлы с разметкой
- .eml — письма, выгруженные из почтового клиента
- любые другие файлы, содержимое которых можно увидеть, открыт этот файл в Блокноте
Для сбора данных из текстовых файлов используется стандартный алгоритм парсера файлов, со следующими особенностями:
- Для чтения файла используется действие «Загрузить содержимое текстового файла»:
Действие Параметр Значение Загрузить содержимое текстового файла Путь к файлу Кодировка текстового файла utf-8 Важно правильно указать кодировку (обычно это utf-8 или windows-1251), чтобы символы кириллицы не стали нечитаемыми.
- Если по одному исходному файлу нужно заполнять несколько строк в таблице Excel, то следующим после загрузки действием будет разбивка документа на отдельные записи (1 запись = 1 строка итоговой таблицы Excel)
Если текстовый файл не содержит разметку записей (файлы txt / csv и т.п.), то для разбивки применяется действие «Разбить текстовую строку на массив» (разделитель — перевод строки {NL} или какое-то слово)
Если же исходный документ содержит разметку (xml / html / json), то разбивка выполняется поиском нужных тегов:- для файлов xml - действие «Выборка из XML» или «Поиск тегов»
- для файлов html - действие «Поиск тегов»
- для файлов json - сначала действие «Преобразовать JSON в XML», а следом команда «Поиск тегов»
Примеры настроенных парсеров текстовых файлов можно найти в каталоге парсеров файлов:
- Добавить комментарий
- 2879 просмотров