Статья является инструкцией по надстройке Parser

Действие парсера «HTML: Удаление тегов / комментов»

Действие "HTML: Удаление тегов / комментов" предназначено для удаления тегов и комментариев в HTML-коде.

В параметре Удаляемые теги указываются теги, которые нужно удалить. При необходимости удалить несколько тегов одновременно они разделяются вертикальной чертой.

Действие Параметр Значение
HTML: Удаление тегов / комментов Удаляемые теги script|comments
Исходное значение Результат
<h1>Заголовок</h1>
<script>Текст скрипта</script>
<!-- Комментарий HTML

продолжается комментарий

<div>Какие-то ненужные теги</div>

-->
<div>Нужный текст</div>
<h1>Заголовок</h1>


<div>Нужный текст</div>

В принципе, теги можно удалять при помощи действия HTML: Поиск тегов, но им нельзя удалить комментарии HTML-кода. Особенностью работы действия HTML: Поиск тегов является то, что оно ищет теги даже внутри комментариев, это может привести к тому, что будут найдены "лишние" теги, которые на странице не отображаются.

Удаление скриптов из кода страницы (тег <script></script>) зачастую облегчает настройку парсера. При нажатии на кнопку "Открыть в браузере" в окне редактора действий HTML-код открывается в браузере по умолчанию, и если в HTML-коде содержатся скрипты, то они начинают выполняться, иногда загораживая текст ненужными всплывающими окнами или же вообще включая переадресацию на другую страницу. Удаление скриптов позволяет решить эту проблему. Вместе с тем постоянное удаление скриптов (такая опция может быть включена в настройках конкретного парсера) может привести к тому, что часть полезной информации будет потеряна, т.к. на некоторых сайтах информация хранится в скриптах, например в формате JSON.