mail mail
Нужен макрос для Excel?
Сделайте заказ прямо сейчас!
Ищете готовое решение?
Выбирайте и покупайте!
У вас есть интернет-магазин?
Настроим парсер под любой сайт!

Статья является примером использования программы «Парсер сайтов и файлов» для сбора данных с веб-страниц

Инструкция по добавлению файла настроек в программу

Парсер файлов Word — извлечение данных из документов

Задача: 

Обработать все файлы Word (дипломы) в заданной папке, и сформировать новую таблицу Excel из 9 столбцов:
Имя файла, ФИО, Должность, Руководитель, Место, Номинация, Работа, ФИО сотрудника, Должность сотрудника

ВложениеРазмерЗагрузкиПоследняя загрузка
Пример результата в файле Excel (данные из файлов Word)9.21 КБ0Ещё не загружался
Настройки парсера MS_Word_Parser.xlp10.79 КБ52421 час 30 минут назад
Архив с обрабатываемыми файлами Word5.22 МБ0Ещё не загружался
Описание: 

Первым делом, парсер получает список файлов *.doc в папке (путь к папке не задан, потому, выдаётся диалоговое окно выбора папки),
после чего, для каждого из файлов, в переменную сохраняется имя файла, и выполняется загрузка HTML-содержимого из очередного документа Word.

Программа умеет считывать и текст из вордовского файла, - только потом проблематично разделить текст на блоки, найдя среди десятков предложений нужные данные. Потому, используется именно чтение HTML из документа, - чтобы потом, ориентируясь на стили (такие как размер шрифта), выделить те или иные предложения.

В качестве примера, рассмотрим вывод в столбец «ФИО»:
сначала мы находим все строки (абзацы) поиском элементов SPAN, получая массив из нескольких значений
потом, проверяем все результаты на соответствие маске *font-size:3#* (оставляя только абзацы, набранные текстом 30 и 32 кегля),
после чего удаляем лишнюю строку «2 МЕСТО» (которая набрана тем же шрифтом во всех файлах)
В итоге, получаем массив строк (1 или 2 значения) в формате HTML, содержащих фамилию, имя и отчество награждаемого.
Остаётся только преобразовать HTML в текст, сцепить обе строки в одну, и убрать дублирующиеся пробелы

Значения в другие столбцы (например, «руководитель» и «номинация») выводятся еще проще, - исходный HTML преобразуется в обычный текст,
а потом обычными текстовыми функциями обрезается текст до и после определенных слов (т.к. мы знаем, какой текст будет до и после нужного нам значения)

Комментарии

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _          _____   _          _____ 
| | ___ | ____| / | ___ | ____|
| | / __| | _| | | / _ \ | _|
| | | (__ | |___ | | | __/ | |___
|_| \___| |_____| |_| \___| |_____|
Введите код, изображенный в стиле ASCII-арт.