Категоризация веб-ресурсов выступает как одна из мер обеспечения защиты от угроз безопасности локальных сетей. С ее помощью удается выявить вредоносные ресурсы, посещение которых грозит последующей утечкой конфиденциальных данных и другими инцидентами ИБ. Также категоризация позволяет соблюдать законодательные требования, предполагающие запрет на доступ к тому или иному контенту в сети. Рассказываем, как работает эта технология, с помощью каких инструментов реализуется и с какими сложностями можно столкнуться. 

Что такое категоризация веб-ресурсов

Категоризация — классификация интернет-ресурсов по их назначению и типу контента, то есть определенным категориям. С помощью этой технологии выявляются и блокируются сомнительные в плане трудовых обязанностей, зараженные, запрещенные страницы и сайты. 

Стоит более подробно остановиться на категориях. Под этим понятием подразумеваются группы критериев, объединяющих контент с веб-страниц различных сайтов и однозначно характеризующих тематику ресурсов. Количество категорий, которые будут учитываться при анализе содержимого ресурсов зависит от используемого программного решения, выполняющего категоризацию.

Перейдем к этапам категоризации:

  • Резолвинг (получение IP-адресов по доменным именам ресурсов) с целью установить доступность ресурсов, адреса которых включены в процесс категоризации. Здесь отсеиваются ресурсы с неактуальными доменами.
  • Проверка на «чистоту» сайта. На этом этапе выявляются ресурсы с вредоносным содержимым. Это происходит так — адреса исследуемых сайтов соотносятся с базой скомпрометированных и фишинговых доменов. При обнаружении совпадений проверяемым объектам присваиваются соответствующие категории.
  • Краулинг (сбор содержимого проверяемых страниц). Если ресурсы признаны не вредоносными, их адреса передаются в следующий модуль — краулер. Он будет исследовать содержимое заголовков страниц.
  • Очистка текста и определение тегов html для дальнейшей классификации веб-ресурсов. Чтобы перейти на следующий этап категоризации, необходимо убрать из текста все ссылки, числа, специальные символы и другие элементы, которые мешают однозначно классифицировать веб-объект. 
  • Категоризация с помощью искусственного интеллекта. Предварительно необходимо обучить модель ИИ на качественной выборке с достаточным количеством ресурсов. 
  • Создание единой мастер-базы, куда вносятся результаты категоризации веб-ресурсов. 

Созданная база должна постоянно обновляться в связи с возможным изменением контента на интернет-ресурсах и утратой актуальности некоторых сайтов. Также ежеквартально следует осуществлять перекатегоризацию содержимого каталога с прохождением всех описанных этапов. 

примеры категорий веб-ресурсов

Примеры категорий веб-ресурсов 

Детальный анализ содержимого сайтов изначально применялся с целью продвижения интернет-рекламы, поэтому при формировании категорий разработчики решений для категоризации руководствовались стандартом IAB (Interactive Advertising Bureau), регламентирующим параметры качественной рекламы. Однако сейчас он является лишь отправной точкой для создания собственных классификаций. 

Примеры категорий:

  • Новостные сайты.
  • Музыка, аудио.
  • Ресурсы для взрослых.
  • Ресурсы, содержащие сцены насилия.
  • Оружие, пиротехника, взрывчатые вещества.
  • Лотереи, азартные игры.
  • Ресурсы для общения в сети.
  • Интернет-магазины.
  • Платежные сервисы, банки.
  • Компьютерные игры.
  • Сайты для поиска работы.
  • Религии.

Это лишь малая часть категорий, которые есть в Solar webProxy. На данный момент база продукта состоит более чем из 70 категорий и 5 миллионов интернет-ресурсов.

Проблемы категоризации веб-ресурсов

Проблемы нередко возникают при формировании политик доступа к тем или иным ресурсам. Дело в том, что некоторые сайты сложно отнести к какой-то определенной категории, поскольку там может публиковаться разнообразный контент. Например, новости могут соседствовать с рецептами, клипами и анекдотами. Именно поэтому нельзя однозначно отнести такие ресурсы к категории новостных или развлекательных. В подобных случаях вступает в силу параллельная категоризация, подразумевающая присвоение сайту более одной категории. 

Чтобы упорядочить работу с неоднозначными ресурсами, придется расставлять приоритеты в правилах и задавать частные исключения. Например, можно разрешить доступ только на определенные страницы таких сайтов. 

Еще один нюанс категоризации веб-ресурсов может возникнуть на этапе краулинга. Иногда на веб-страницах минимальное количество текста или его вообще нет, соответственно, сложно отнести такой сайт к какой-то категории. Искусственный интеллект в подобных ситуациях бессилен, поэтому задачи по категоризации ложатся на контент-менеджеров. 

Категоризация веб-ресурсов в Solar webProxy 

Solar webProxy обеспечивает высокое качество фильтрации трафика и точность категоризации ресурсов благодаря одновременному использованию сторонних баз и собственного категоризатора webCat. Списки категорий ежедневно пополняются благодаря искусственному интеллекту и технологиям машинного обучения.

Еще одно преимущество продукта — возможная интеграция с ЦАИР (центром аналитических исследований), Symantec (Blue Coat), программным обеспечением для фильтрации трафика iAdmin. 

Заключение

Количество сайтов стремительно растет, в связи с чем категоризация веб-ресурсов становится обязательной мерой. Вручную «рассортировать» все интернет-площадки физически невозможно, поэтому необходимо привлекать программные решения для автоматизации процессов. Категоризаторы несут информирующую функцию, то есть сигнализируют о соответствии того или иного ресурса определенным критериям, сформированным в базу категорий. На основании этой информации используемые компанией инструменты обеспечения безопасности разрешают или запрещают доступ к запрашиваемым сайтам.