Из Word в Excel: Парсер файлов Word — извлечение данных из документов

Задача:

Обработать все файлы Word в заданной папке, и сформировать новую таблицу Excel с данными из файлов Word из 9 столбцов:
Имя файла, ФИО, Должность, Руководитель, Место, Номинация, Работа, ФИО сотрудника, Должность сотрудника

Вложения:

Пример результата в файле Excel (данные из файлов Word)	9.21 КБ
Настройки парсера MS_Word_Parser.xlp	10.79 КБ
Архив с обрабатываемыми файлами Word	5.22 МБ

ИНСТРУКЦИЯ: Как добавить файл настроек в парсер

Описание:

Первым делом, парсер получает список файлов *.doc в папке (путь к папке не задан, потому, выдаётся диалоговое окно выбора папки),
после чего, для каждого из файлов, в переменную сохраняется имя файла, и выполняется загрузка HTML-содержимого из очередного документа Word.

Программа умеет считывать и текст из вордовского файла, - только потом проблематично разделить текст на блоки, найдя среди десятков предложений нужные данные. Потому, используется именно чтение HTML из документа, - чтобы потом, ориентируясь на стили (такие как размер шрифта), выделить те или иные предложения.

В качестве примера, рассмотрим вывод в столбец «ФИО»:
сначала мы находим все строки (абзацы) поиском элементов SPAN, получая массив из нескольких значений
потом, проверяем все результаты на соответствие маске *font-size:3#* (оставляя только абзацы, набранные текстом 30 и 32 кегля),
после чего удаляем лишнюю строку «2 МЕСТО» (которая набрана тем же шрифтом во всех файлах)
В итоге, получаем массив строк (1 или 2 значения) в формате HTML, содержащих фамилию, имя и отчество награждаемого.
Остаётся только преобразовать HTML в текст, сцепить обе строки в одну, и убрать дублирующиеся пробелы

Значения в другие столбцы (например, «руководитель» и «номинация») выводятся еще проще, - исходный HTML преобразуется в обычный текст,
а потом обычными текстовыми функциями обрезается текст до и после определенных слов (т.к. мы знаем, какой текст будет до и после нужного нам значения)

15911 просмотров

Жаль что не объяснили, лишь туманное возможно, хотели для организации приобрести с десяток лицензий. Придется искать другие решения, всего доброго и с наступившим Новым годом и Рождеством

Игорь (администратор сайта), 7 Янв 2021 - 19:31.#3

Александр, да, возможно.
Я не консультирую по вопросам настройки парсеров. Можем настроить под заказ.

Александр, 7 Янв 2021 - 17:29.#4

Забыл объяснить, что я не нашел как парсер можно привязать в вордовском документе кроме как к шрифту и размеру кегля

Александр, 7 Янв 2021 - 17:25.#5

Игорь, возможно ли привязать к определенному словосочетанию, допустим ФИО или СНИЛС (причем шрифти размер кегля бывают как одинаковые так и разные и совпадают по тексту с другими фразами), как это реализовать из ворда я не нашел. Заказывать у вас каждый раз настройку для парсера из-за 50-100 документов не целесообразно.
Подскажите возможен ли такой парсинг и как его реализовать, что бы ваша программа не была ненужной покупкой)
С уважением Александр.

Игорь (администратор сайта), 7 Янв 2021 - 05:16.#6

Александр, привязаться можно к чему угодно (в том числе к содержимому), лишь бы вы смогли сформулировать, от чего отталкиваться для извлечения тех или иных данных, — тогда можно и парсеру будет объяснить, как отделить одно от другого.
(а функционала парсера хватит для любых преобразований, — тут всё очень гибко настраивается)

Александр, 7 Янв 2021 - 00:35.#7

Здравствуйте, присматриваюсь к покупке, но не пойму возможен ли парсинг нужных данных из ворда если текст и по размеру и по шрифту одинаковый, возможно ли еще по каким то моментам выделять для парсинга нужный текст?

Игорь (администратор сайта), 20 Мар 2018 - 01:23.#8

Алишер, все необходимые файлы прикреплены к статье.
Ссылка на инструкция по запуску парсера - над заголовком статьи

Алишер, 20 Мар 2018 - 00:59.#9

Как запустить данный парсер?

Отправить комментарий

Ваше имя:

E-mail:

Содержание этого поля является приватным и не предназначено к показу.

Комментарий: *

Уведомлять меня о новых комментариях

CAPTCHA

Подтвердите, пожалуйста, что вы - человек:

                              _____   ____          
  _ __ ___     __ _   _   _  |  ___| |___ \   _   _ 
 | '_ ` _ \   / _` | | | | | | |_      __) | | | | |
 | | | | | | | (_| | | |_| | |  _|    / __/  | |_| |
 |_| |_| |_|  \__, |  \__, | |_|     |_____|  \__, |
                 |_|  |___/                   |___/

Введите код, указанный выше: *

Введите код, изображенный в стиле ASCII-арт.

Из Word в Excel: Парсер файлов Word — извлечение данных из документов

Комментарии

Отправить комментарий

Категории парсеров

НАДСТРОЙКИ ДЛЯ EXCEL