Обработать все файлы Word в заданной папке, и сформировать новую таблицу Excel с данными из файлов Word из 9 столбцов:
Имя файла, ФИО, Должность, Руководитель, Место, Номинация, Работа, ФИО сотрудника, Должность сотрудника
Первым делом, парсер получает список файлов *.doc в папке (путь к папке не задан, потому, выдаётся диалоговое окно выбора папки),
после чего, для каждого из файлов, в переменную сохраняется имя файла, и выполняется загрузка HTML-содержимого из очередного документа Word.
Программа умеет считывать и текст из вордовского файла, - только потом проблематично разделить текст на блоки, найдя среди десятков предложений нужные данные. Потому, используется именно чтение HTML из документа, - чтобы потом, ориентируясь на стили (такие как размер шрифта), выделить те или иные предложения.
В качестве примера, рассмотрим вывод в столбец «ФИО»:
сначала мы находим все строки (абзацы) поиском элементов SPAN, получая массив из нескольких значений
потом, проверяем все результаты на соответствие маске *font-size:3#* (оставляя только абзацы, набранные текстом 30 и 32 кегля),
после чего удаляем лишнюю строку «2 МЕСТО» (которая набрана тем же шрифтом во всех файлах)
В итоге, получаем массив строк (1 или 2 значения) в формате HTML, содержащих фамилию, имя и отчество награждаемого.
Остаётся только преобразовать HTML в текст, сцепить обе строки в одну, и убрать дублирующиеся пробелы
Значения в другие столбцы (например, «руководитель» и «номинация») выводятся еще проще, - исходный HTML преобразуется в обычный текст,
а потом обычными текстовыми функциями обрезается текст до и после определенных слов (т.к. мы знаем, какой текст будет до и после нужного нам значения)
Комментарии
Ну а как я вам объясню, не видя файлов даже..
Напишите мне в скайп, отвечу голосовыми сообщениями.
Жаль что не объяснили, лишь туманное возможно, хотели для организации приобрести с десяток лицензий. Придется искать другие решения, всего доброго и с наступившим Новым годом и Рождеством
Александр, да, возможно.
Я не консультирую по вопросам настройки парсеров. Можем настроить под заказ.
Забыл объяснить, что я не нашел как парсер можно привязать в вордовском документе кроме как к шрифту и размеру кегля
Игорь, возможно ли привязать к определенному словосочетанию, допустим ФИО или СНИЛС (причем шрифти размер кегля бывают как одинаковые так и разные и совпадают по тексту с другими фразами), как это реализовать из ворда я не нашел. Заказывать у вас каждый раз настройку для парсера из-за 50-100 документов не целесообразно.
Подскажите возможен ли такой парсинг и как его реализовать, что бы ваша программа не была ненужной покупкой)
С уважением Александр.
Александр, привязаться можно к чему угодно (в том числе к содержимому), лишь бы вы смогли сформулировать, от чего отталкиваться для извлечения тех или иных данных, — тогда можно и парсеру будет объяснить, как отделить одно от другого.
(а функционала парсера хватит для любых преобразований, — тут всё очень гибко настраивается)
Здравствуйте, присматриваюсь к покупке, но не пойму возможен ли парсинг нужных данных из ворда если текст и по размеру и по шрифту одинаковый, возможно ли еще по каким то моментам выделять для парсинга нужный текст?
Алишер, все необходимые файлы прикреплены к статье.
Ссылка на инструкция по запуску парсера - над заголовком статьи
Как запустить данный парсер?
Отправить комментарий