Парсинг файлов

Программа «Парсер» может собирать (извлекать) данные не только с сайтов, но и из файлов разного формата.

Поддерживаемые типы файлов для парсинга:

  • текстовые файлы любого формата
    • .txt, .csv и т.п. — «обычные» текстовые файлы
    • .xml, .html, .json и т.п. — файлы с разметкой
    • .eml — письма, выгруженные из почтового клиента
    • любые другие файлы, содержимое которых можно увидеть, открыт этот файл в Блокноте
  • документы Word
    • .doc, .docx и т.п. — «обычные» документы Word
    • .rtf, .odt и другие форматы, поддерживаемые Word
  • таблицы Excel
    • .xls, .xlsx, xlsm, .xlsb и любые другие таблицы
  • файлы PDF
    • .pdf — но не все, а только с текстовым слоем
      (такие документы, где можно выделить и скопировать текст)

Кроме того, из документов Word можно извлекать изображения (сохраняя картинки в папку), а в обрабатываемые таблицы Excel можно вносить некоторые изменения (а не только считывать данные).

Результатом работы парсера могут быть:

  • файл Excel, в который программа выводит данные из файлов
  • папка (папки) с созданными файлами или выгруженными изображениями
     

Парсер может обработать как один файл, так и перебрать все файлы в выбранной папке.

Пример настройки парсера для обработки одного файла

Вывод списка файлов в папке при помощи парсера

Пример настройки парсера для обработки всех файлов в папке

Особенности парсинга таблиц Excel

 

Парсинг файлов можно использовать в различных целях: