Парсинг текстовых файлов

Парсер поддерживает любые текстовые файлы:

  • .txt, .csv и т.п. — «обычные» текстовые файлы
  • .xml, .html, .json и т.п. — файлы с разметкой
  • .eml — письма, выгруженные из почтового клиента
  • любые другие файлы, содержимое которых можно увидеть, открыт этот файл в Блокноте

Для сбора данных из текстовых файлов используется стандартный алгоритм парсера файлов, со следующими особенностями:

  1. Для чтения файла используется действие «Загрузить содержимое текстового файла»:
     

    Действие Параметр Значение
    Загрузить содержимое текстового файла Путь к файлу  
    Кодировка текстового файла utf-8

    Важно правильно указать кодировку (обычно это utf-8 или windows-1251), чтобы символы кириллицы не стали нечитаемыми.
     

  2. Если по одному исходному файлу нужно заполнять несколько строк в таблице Excel, то следующим после загрузки действием будет разбивка документа на отдельные записи (1 запись = 1 строка итоговой таблицы Excel)

    Если текстовый файл не содержит разметку записей (файлы txt / csv и т.п.), то для разбивки применяется действие «Разбить текстовую строку на массив» (разделитель — перевод строки {NL} или какое-то слово)
    Если же исходный документ содержит разметку (xml / html / json), то разбивка выполняется поиском нужных тегов:

Примеры настроенных парсеров текстовых файлов можно найти в каталоге парсеров файлов: