Парсинг текстовых файлов

Парсер поддерживает любые текстовые файлы:

.txt, .csv и т.п. — «обычные» текстовые файлы
.xml, .html, .json и т.п. — файлы с разметкой
.eml — письма, выгруженные из почтового клиента
любые другие файлы, содержимое которых можно увидеть, открыт этот файл в Блокноте

Для сбора данных из текстовых файлов используется стандартный алгоритм парсера файлов, со следующими особенностями:

Для чтения файла используется действие «Загрузить содержимое текстового файла»:

Действие	Параметр	Значение
Загрузить содержимое текстового файла	Путь к файлу
Загрузить содержимое текстового файла	Кодировка текстового файла	utf-8

Важно правильно указать кодировку (обычно это utf-8 или windows-1251), чтобы символы кириллицы не стали нечитаемыми.

Если по одному исходному файлу нужно заполнять несколько строк в таблице Excel, то следующим после загрузки действием будет разбивка документа на отдельные записи (1 запись = 1 строка итоговой таблицы Excel)
Если текстовый файл не содержит разметку записей (файлы txt / csv и т.п.), то для разбивки применяется действие «Разбить текстовую строку на массив» (разделитель — перевод строки {NL} или какое-то слово)
Если же исходный документ содержит разметку (xml / html / json), то разбивка выполняется поиском нужных тегов:
- для файлов xml - действие «Выборка из XML» или «Поиск тегов»
- для файлов html - действие «Поиск тегов»
- для файлов json - сначала действие «Преобразовать JSON в XML», а следом команда «Поиск тегов»

Примеры настроенных парсеров текстовых файлов можно найти в каталоге парсеров файлов:

Добавить комментарий
4522 просмотра