Из Word в Excel: Парсер файлов Word — извлечение данных из документов

Задача: 

Обработать все файлы Word в заданной папке, и сформировать новую таблицу Excel с данными из файлов Word из 9 столбцов:
Имя файла, ФИО, Должность, Руководитель, Место, Номинация, Работа, ФИО сотрудника, Должность сотрудника

Описание: 

Первым делом, парсер получает список файлов *.doc в папке (путь к папке не задан, потому, выдаётся диалоговое окно выбора папки),
после чего, для каждого из файлов, в переменную сохраняется имя файла, и выполняется загрузка HTML-содержимого из очередного документа Word.

Программа умеет считывать и текст из вордовского файла, - только потом проблематично разделить текст на блоки, найдя среди десятков предложений нужные данные. Потому, используется именно чтение HTML из документа, - чтобы потом, ориентируясь на стили (такие как размер шрифта), выделить те или иные предложения.

В качестве примера, рассмотрим вывод в столбец «ФИО»:
сначала мы находим все строки (абзацы) поиском элементов SPAN, получая массив из нескольких значений
потом, проверяем все результаты на соответствие маске *font-size:3#* (оставляя только абзацы, набранные текстом 30 и 32 кегля),
после чего удаляем лишнюю строку «2 МЕСТО» (которая набрана тем же шрифтом во всех файлах)
В итоге, получаем массив строк (1 или 2 значения) в формате HTML, содержащих фамилию, имя и отчество награждаемого.
Остаётся только преобразовать HTML в текст, сцепить обе строки в одну, и убрать дублирующиеся пробелы

Значения в другие столбцы (например, «руководитель» и «номинация») выводятся еще проще, - исходный HTML преобразуется в обычный текст,
а потом обычными текстовыми функциями обрезается текст до и после определенных слов (т.к. мы знаем, какой текст будет до и после нужного нам значения)

Комментарии

Ну а как я вам объясню, не видя файлов даже..
Напишите мне в скайп, отвечу голосовыми сообщениями.

Жаль что не объяснили, лишь туманное возможно, хотели для организации приобрести с десяток лицензий. Придется искать другие решения, всего доброго и с наступившим Новым годом и Рождеством

Александр, да, возможно.
Я не консультирую по вопросам настройки парсеров. Можем настроить под заказ.

Забыл объяснить, что я не нашел как парсер можно привязать в вордовском документе кроме как к шрифту и размеру кегля

Игорь, возможно ли привязать к определенному словосочетанию, допустим ФИО или СНИЛС (причем шрифти размер кегля бывают как одинаковые так и разные и совпадают по тексту с другими фразами), как это реализовать из ворда я не нашел. Заказывать у вас каждый раз настройку для парсера из-за 50-100 документов не целесообразно.
Подскажите возможен ли такой парсинг и как его реализовать, что бы ваша программа не была ненужной покупкой)
С уважением Александр.

Александр, привязаться можно к чему угодно (в том числе к содержимому), лишь бы вы смогли сформулировать, от чего отталкиваться для извлечения тех или иных данных, — тогда можно и парсеру будет объяснить, как отделить одно от другого.
(а функционала парсера хватит для любых преобразований, — тут всё очень гибко настраивается)

Здравствуйте, присматриваюсь к покупке, но не пойму возможен ли парсинг нужных данных из ворда если текст и по размеру и по шрифту одинаковый, возможно ли еще по каким то моментам выделять для парсинга нужный текст?

Алишер, все необходимые файлы прикреплены к статье.
Ссылка на инструкция по запуску парсера - над заголовком статьи

Как запустить данный парсер?

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
CAPTCHA
Подтвердите, пожалуйста, что вы - человек:
  _  _     _       _  _      ___           _____ 
| || | | | | || | / _ \ __ __ |___ /
| || |_ | | | || |_ | (_) | \ \/ / |_ \
|__ _| | |___ |__ _| \__, | > < ___) |
|_| |_____| |_| /_/ /_/\_\ |____/
Введите код, изображенный в стиле ASCII-арт.