Действие парсера «Выборка из XML»

Параметры действия:

Запрос XPath
Что выводить (режим вывода)
Название атрибута / маска текста
Значение по умолчанию

Предназначение действия:

Выполняет выборку из XML по запросу в формате XPath, и выводит массив узлов XML из значений из найденных узлов.
Исходным значением для функции должен быть либо валидный XML, либо путь к файлу XML.

В режиме вывода «text» (второй параметр), можно в третьем параметре задать маску текста вида {name}={@id}={brand}, где в фигурных скобках - названия извлекаемых тегов XML (name, brand) или название атрибута (id).
Например, из найденного узла XML вида MyNameMyBrand
при маске текста {name}|{@id}|{brand} получится значение MyName|1234|MyBrand

Возвращаемое значение: результат выборки (XML или текст)

Параметр «Запрос XPath»

Тип параметра: произвольное текстовое значение

Параметр «Что выводить (режим вывода)»

Тип параметра: выбор из списка предопределенных значений

Допустимые значения параметра: text; xml; attribute

Значение по умолчанию: text

Параметр «Название атрибута / маска текста»

Тип параметра: произвольное текстовое значение

Параметр «Значение по умолчанию»

Тип параметра: произвольное текстовое значение

Примеры использования:

Простые варианты Xpath:

Исходное значение

Часть HTML-кода веб-страницы (длиной 2290 символов)

<yandexsearch version="1.0">
<request>
<query>ExcelVBA.ru</query>
<groupings>
<groupby attr="d" mode="deep" groups-on-page="10" docs-in-group="1" curcateg="-1"/>
</groupings>
</request>
<response date="20240523T093450">
<found priority="all">4473</found>
<found-human>Нашлось 4 тыс. ответов</found-human>
<results>
<grouping attr="d" mode="deep" groups-on-page="10" docs-in-group="1" curcateg="-1">
<page first="1" last="10">0</page>
<group>
<categ attr="d" name="excelvba.ru"/>
<doccount>14641</doccount>
<relevance priority="all"/>
<doc id="ZE878EF3B706B0746">
<relevance priority="all"/>
<url>/</url>
<domain>excelvba.ru</domain>
<title>Макросы для Excel на заказ. Парсинг сайтов. Надстройки для Excel.</title>
<headline>Разработка макросов для Excel, парсинг сайтов, продажа универсальных надстроек для Excel...</headline>
</doc>
</group>
<group>
<categ attr="d" name="youtube.com"/>
<doccount>1</doccount>
<relevance priority="all"/>
<doc touchdown="РКН: сайт нарушает закон РФ" id="Z91760083047C2DE7">
<relevance priority="all"/>
<domain>www.youtube.com</domain>
<headline>Макросы любой сложности для Excel.Парсинг сайтов </headline>
</doc>
</group>
<group>
<categ attr="d" name="t.me"/>
<doccount>2</doccount>
<relevance priority="all"/>
<doc touchdown="РКН: сайт нарушает закон РФ" id="Z978C078589F0B404">
<relevance priority="all"/>
<url>https://t.me/excel_programmer</url>
<domain>t.me</domain>
<title>Telegram: Contact @excel_programmer</title>
</doc>
</group>
<group>
<categ attr="d" name="vk.com"/>
<doccount>140</doccount>
<relevance priority="all"/>
<doc id="Z66104A466A3BFF81">
<relevance priority="all"/>
<url>https://vk.com/excelvba_ru</url>
<domain>vk.com</domain>
<title>Excel Vba 2024 | ВКонтакте</title>
</doc>
</group>
<found priority="phrase">1425</found>
</grouping>
</results>
</response>
</yandexsearch>

Действие	Параметр	Значение	Результат
ищем элементы results (на любой глубине вложенности), а внутри них - элементы url
Выборка из XML	Запрос XPath	//results//url	Массив из 3 значений: / https://t.me/excel_programmer https://vk.com/excelvba_ru
	Что выводить	text
	Название атрибута / маска текста
	Значение по умолчанию
	Сохранить результат в переменную
	Использовать новое значение	да

Действие	Параметр	Значение	Результат
ищем элемент found-human (на любой глубине вложенности)
Выборка из XML	Запрос XPath	//found-human	Текст (длиной 22 символа)
	Что выводить	text
	Название атрибута / маска текста
	Значение по умолчанию
	Сохранить результат в переменную
	Использовать новое значение	да

Действие	Параметр	Значение	Результат
Выборка из XML	Запрос XPath	response/results//doc/headline	Массив из 2 значений: <headline>Разработка макросов для Excel, парсинг сайтов, продажа универсальных надстроек для Excel...</headline> <headline>Макросы любой сложности для Excel.Парсинг сайтов </headline>
	Что выводить	xml
	Название атрибута / маска текста
	Значение по умолчанию
	Сохранить результат в переменную
	Использовать новое значение	да

Действие	Параметр	Значение	Результат
ищем элемент categ (в любом уровне вложенности), и берём из него атрибут name
Выборка из XML	Запрос XPath	//categ	Массив из 4 значений: excelvba.ru youtube.com t.me vk.com
	Что выводить	attribute
	Название атрибута / маска текста	name
	Значение по умолчанию
	Сохранить результат в переменную
	Использовать новое значение	да

Ищем элементы doc (на любом уровне вложенности), и на основании каждого найденного элемента собираем результат из вложенных в него тегов:

Действие	Параметр	Значение	Результат
Выборка из XML	Запрос XPath	//doc	Массив из 4 значений: результат ZE878EF3B706B0746: Макросы для Excel на заказ. Парсинг сайтов. Надстройки для Excel., домен excelvba.ru результат Z91760083047C2DE7: ZE878EF3B706B0746, домен <a href="http://www.youtube.com" title="www.youtube.com">www.youtube.com</a> результат Z978C078589F0B404: Telegram: Contact @excel_programmer, домен t.me результат Z66104A466A3BFF81: Excel Vba 2024 \| ВКонтакте, домен vk.com
	Что выводить	text
	Название атрибута / маска текста	результат {@id}: {title}, домен {domain}
	Значение по умолчанию
	Сохранить результат в переменную
	Использовать новое значение	да

Ну и пример посложнее, с извлечением текста текущего тега, и получением атрибутов с автоматическим их форматированием:

Исходное значение

Часть HTML-кода веб-страницы (длиной 404 символа)

<response>
<limits>
<time-interval from="2014-07-22 20:00:00 +0000" to="2014-07-22 21:00:00 +0000">500</time-interval>
<time-interval from="2014-07-22 21:00:00 +0000" to="2014-07-22 22:00:00 +0000">450</time-interval>
<time-interval from="2014-07-22 22:00:00 +0000" to="2014-07-22 23:00:00 +0000">590</time-interval>
</limits>
</response>

Действие	Параметр	Значение	Результат
Выборка из XML	Запрос XPath	//time-interval	Массив из 3 значений: 500 запросов 22 июля с 20:00 до 21:00 450 запросов 22 июля с 21:00 до 22:00 590 запросов 22 июля с 22:00 до 23:00
	Что выводить	text
	Название атрибута / маска текста	{} запросов {@from=d mmmm с HH:NN} до {@to=HH:NN}
	Значение по умолчанию
	Сохранить результат в переменную
	Использовать новое значение	да

Добавить комментарий
4169 просмотров

Аналогичный вопрос интересует. Автор, откликнитесь, пожалуйста.
Если в документе несколько одинаковых тегов на одном уровне (например {image}), извлекается только первый. Как указать в поле (Название атрибута/маска текста), что извлечь нужно все?

Надстройка «Парсер сайтов»: справка по программе

Действие парсера «Выборка из XML»

Параметры действия:

Предназначение действия:

Возвращаемое значение: результат выборки (XML или текст)

Параметр «Запрос XPath»

Параметр «Что выводить (режим вывода)»

Параметр «Название атрибута / маска текста»

Параметр «Значение по умолчанию»

Примеры использования:

Комментарии

НАДСТРОЙКИ ДЛЯ EXCEL