Действие парсера «Обработка иерархических документов»

Параметры действия:

Предназначение действия:

Преобразует структуру иерархического HTML документа, согласно настроек для подуровней.
Правила распознавания задаются в отдельном наборе действий при помощи команды «Настройки распознавания подуровня»

 

Возвращаемое значение: массив значений, каждое из которых содержит элементы DIV следующего вида:

<div id="НазваниеУровня1">Значение</div>
<div id="НазваниеУровня2">
Значение</div>
и т.д.


Параметр «Название набора настроек уровней»

Тип параметра: выбор из списка названий наборов действий

Укажите здесь названия набора действий, содержащего правила распознавания подуровней

 

Пример использования:

 

Предположим, что на веб-странице у нас есть вложенный (по смыслу) список, но теги в нём не являются вложенными.
В качестве образца можно взять список характеристик на этой странице товара

Если убрать лишние (незначащие в нашем случае) теги, то получим HTML код такого вида:

Исходное значение

 

Наша задача — сгруппировать названия групп (тег li) со значениями (теги label), получив массив значений вида

<группа1><значение1>
<группа1><значение2>
<группа2><значение1>
<группа2><значение2>
и т.д.

Для этого предварительно настроим правила распознавания подуровней (создав набор действий с названием levels), а потом применим их к нашему HTML коду:

 

Действие Параметр Значение Результат
Обработка иерархических документов Название набора настроек уровней levels Массив из 6 значений:

HTML: Преобразование тегов HTML фильтр 1 id=group Массив из 6 значений:

Тип результата 1 ConvertToText
HTML фильтр 2 id=content
Тип результата 2 ConvertToText
HTML фильтр 3  
Тип результата 3