Алгоритм настройки парсера файлов

Рассмотрим порядок настройки парсера для всех файлов в папке

Вы можете воспользоваться готовым шаблоном парсера для перебора файлов в папке

ВНИМАНИЕ: каждый тип файлов имеет свои особенности, которые описаны в соответствующих инструкциях: текстовые файлы / Word / Excel / PDF

  1. создаём новый парсер, включаем галочку «Выполнять подстановку данных на лист Excel», и в настройках листа для вывода ставим галочки для создания новой таблицы Excel и для вывода заголовков
     
  2. в исходных данных парсера прописываем 2 команды:
    • получение списка файлов в папке (если папка всегда одна и та же, — пропишите путь к папке в поле Исходное значение на вкладке «Исходные данные», тогда при выолнении этого действия не будет появляться диалоговое окно выбора папки)
    • проверка на выполнение условия — если значение пустое, то останов с кодом -9 (завершение работы парсера, если файлы отсутствуют, или папка не была выбрана)
       

      Действие Параметр Значение
      Получить список файлов в папке Путь к папке с файлами  
      Глубина просмотра подпапок 1
      Маска имени файла *.*
      Проверка на выполнение условия Режим проверки равно
      Значение для сравнения  
      Действие при выполнении условия Остановить
      Параметр действия -9
      Проверять другое значение нет
      Другое проверяемое значение  

       

  3. создаём подуровень (на который будут передаваться по очереди пути к файлам)
    На этом подуровне достаточно одного действия (загрузка содержимого файла), но мы добавим ещё запоминание пути к файлу в переменную (для вывода гиперссылки на файл), и вывод данных на прогрессбар:
     

    Действие Параметр Значение
    Сохранить текущее значение в переменную Название переменной path
    Область видимости parser
    Прогресс-бар: вывод информации Номер строки индикатора 1
    Тип обрабатываемого значения Файл
    Значение  
    После скольки значений обновлять 1

    Третьим действием будет выполняться загрузка содержимого файла.
    Тут действие зависит от типа файлов: (выберите ОДНО действие из списка ниже)
     

    Действие Параметр Значение
    для текстовых файлов (txt, html, xml, json, и т.д.)
    Загрузить содержимое текстового файла Путь к файлу  
    Кодировка текстового файла utf-8 или windows-1251
    для файлов MS Word (doc, docx, rtf и т.д.)
    Загрузить содержимое из файла MS Word Путь к файлу  
    Запускать новый экземпляр MS Word нет
    Открыть в режиме «только чтение» да
    Тип результата text или HTML
    для файлов Excel (xls, xlsx, xlsb и т.д.)
    Открыть файл в Excel Путь к открываемому файлу  
    Режим 2 - ReadOnly
    для файлов формата PDF
    Скопировать содержимое PDF файла через IE Время ожидания после открытия, сек. 1
    Время ожидания копирования, сек. 0
    Извлекаемый формат из буфера обмена Rich Text Format

     

  4.  настраиваем вывод в столбцы (действия для обработки текста, и/или поиск тегов)