Неструктурированные данные: что это такое, хранение, использование, управление

Когда речь заходит о доступе, мы здраво рассуждаем, что нужно контролировать доступ к информационным системам организаций, нужно знать всех пользователей, которые получают права для работы с приложениями и базами данных, нужны эффективные средства автоматизации для управления этими процессами. Но зачастую на втором плане остается вопрос о хранении и получении доступа к многочисленным файлам и папкам, которые размещены на серверах компании. Почему это остается в серой зоне и за эту тему предпочитают не браться и не вспоминать о ней? Виной тому огромный объем работы, который нужно предварительно проделать, чтобы разобраться хоть в какой-то «структуре» этих неструктурированных данных, понять, что это за информация, где хранится и кем используется. А на следующем этапе определить, что с этим делать дальше: как наладить процессы ведения и разграничения данных, как поддерживать в них порядок, как отслеживать использование. К сожалению, у всех одни только вопросы, но совершенно нет ответов. Уже сейчас соотношение структурированных данных к неструктурированным не в пользу первых. А между тем мировые аналитики уже оценили масштабы роста количества неструктурированных данных. Международная аналитическая компания ITC прогнозирует, что к 2025 году объем данных вырастет до 175 зеттабайт (зетта = 10²¹) и бо́льшая их часть будет неструктурированной.

чем отличаются структурированные от неструктурированных данных

Структурированные, неструктурированные и полуструктурированные данные

Структурированные данные отличаются от неструктурированных прежде всего форматом, способом хранения и типом анализа. Формат хранения структурированных данных – это обычно реляционная база данных, т. е., проще говоря, таблица, где есть четко зафиксированные поля и строки с наименованием или нумерацией, и в ячейках этой таблицы хранятся данные. Искать информацию в таблицах довольно просто и для человека, и для машинного алгоритма. Чтобы осуществить поиск данных в такой структуре, используются различные средства, например специальный язык SQL (Structured Query Language), который позволяет формировать запросы к таблице и просматривать построенные выборки и отчеты для получения нужной информации. Примером структурированных данных может быть информация о финансовых операциях (транзакциях) в системах и приложениях, которые используются в банках, или информация о клиентах компании, хранящаяся в определенных таблицах. Эту информацию можно классифицировать и отобрать по разным категориям данных: по адресам, телефонам, ФИО и другим признакам, поэтому она и называется структурированной.

В крупных компаниях доступ к данным, которые хранятся и обрабатываются в автоматизированных информационных системах, как правило, разграничивается посредством ролевой модели, и это зона ответственности систем класса IdM/IGA.

Неструктурированные данные хранятся хаотично в неоднородных форматах. Это может быть текст, изображение, видео. В процессе работы в компаниях такого контента накапливается очень много и контролировать его создание, перемещение, обращение с ним очень сложно.

Одна их серьезных проблем состоит в том, что те данные, которые хранятся в определенных системах и приложениях в структурированном виде постоянно копируются, скачиваются и переносятся в файлы и папки в совершенно разных форматах. Почти каждая информационная система содержит функцию экспорта, а кроме того, можно банально сделать скриншот экрана. Таким образом, данные перестают быть структурированными, а превращаются в неструктурированные. И здесь компания фактически теряет контроль над ними. Например, бухгалтер сделал скриншот экрана, на котором была размещена часть бухгалтерского отчета и в формате картинки сохранил в папке на файловом сервере, далее он может отправить его по почте или через мессенджер коллеге или внешнему партнеру. Или аналитик выгрузил данные, содержащие коммерческую тайну на общедоступный сервер, и это неизбежно приведет к массовому доступу и распространению чувствительной информации.

Некоторые данные можно отнести к полуструктуриованным. Они по природе своей не структурированы, но используют внутренние теги и маркировку, которые позволяют их разделять, выделять среди них однотипные данные или строить иерархии. Например, к таким данным можно отнести данные языка XML (eXtensible Markup Language) – расширяемого языка разметки. При помощи XML можно описывать данные через теги. У этого языка есть логическая структура, и информацию, созданную с помощью XML, можно хранить и передавать в удобном формате, который понятен и человеку, и машине. Другим примером полуструктурированных данных может быть информация в электронной почте. Метаданные, которые используются в электронных письмах позволяют аналитическим инструментам классифицировать их и осуществлять поиск по ключевым словам. Также данные, которые хранятся на корпоративных порталах, таких, например, как Sharepoint, тоже попадают под определение полуструктурированных.

риски утечки неструктурированных данных

Риски при обращении с неструктурированными данными

Без строго контроля и постоянного мониторинга обращение с неструктурированными данными несет серьезные риски, такие как несанкционированное их использование, ошибки, утечка данных, несоблюдение нормативных требований.

Примеры инцидентов, связанных с использованием неструктурированных данных

Сотрудник аналитического отдела крупной ИТ-компании, готовясь к встрече, неосознанно загрузил файл, содержащий конфиденциальные данные клиентов, на общедоступную платформу обмена файлами. Данные стали доступны неуполномоченным лицам, что привело к их краже и нанесло ущерб репутации компании.

Сотрудник договорного отдела строительной компании получил по электронной почте документ, в который а выглядел как легитимный файл, но в который был внедрен вредоносный код. Сотрудник, ничего не подозревая, загрузил его на общий диск, после чего запустилась вредоносная программа и поставила под угрозу безопасность и целостность неструктурированных данных, хранящихся в организации.

Недовольный сотрудник исследовательского института, имея расширенные права, намеренно удалил конфиденциальные неструктурированные данные перед уходом из компании. Данные содержали интеллектуальную собственность учреждения, что привело к юридическим проблемам.

Один из руководителей логистической компании из-за неправильно настроенных средств разграничения доступа случайно удалил значительную часть неструктурированных данных, предполагая, что они уже не актуальны. Оказалось, что это была значимая информация, к которой смежное подразделение обращалось в конце каждого года для оценки работы. Этот инцидент привел к нарушению работы компании и сдвинул сроки закрытия года.

Хакеру удалось использовать уязвимости в инфраструктуре Active Directory государственного учреждения, и он получил несанкционированный доступ к неструктурированным данным, хранящимся на файловых серверах Windows в открытом виде. Это привело к утечке конфиденциальной информации.

И это далеко не полный перечень инцидентов, произошедших за последнее время. Мы то и дело читаем о подобных случаях в СМИ, а сколько еще болезненных ситуаций, связанных с потерями, которые предпочитают не разглашать?!

Технология DAG – Data Access Governance

Не отчаиваемся – для защиты неструктурированных данных выход есть! И это специализированные решения по защите – DAG (Data Access Governance). Системы такого класса помогают организациям создать полноценную среду для управления и контроля доступа к данным, хранящимся в неструктурированном виде на файловых ресурсах компании. Сюда входит настройка утвержденных политик, обеспечение соблюдения правил категоризации данных и разграничения доступа к ним, проведение регулярных проверок по соблюдению требований и выявление любых отклонений от утвержденных политик. Все эти аспекты в конечном счете обеспечивают основные принципы информационной безопасности – целостность, конфиденциальность и доступность данных.

В материалах и предложениях поставщиков можно встретить два наименования решений ИБ, которые фокусируются на неструктурированных данных. Это DAG – Data Access Governance, и DCAP – Data Centric Audit and Protection. У многих возникает вопрос: в чем их разница? В целом решения DAG фокусируются на управлении доступом пользователей, обеспечении соответствия требованиям, также включая в себя и технологии DCAP, т. е. это более широкий взгляд и подход. Тогда как системы класса DCAP фокусируются на обеспечении безопасности и защиты самих данных, т. е. это уже концентрация именно на их содержимом и более детальный подход к тому, что именно нужно защищать. Это читается и в самих наименованиях продуктов.

На самом деле оба подхода дополняют друг друга и часто используются вместе для обеспечения комплексного управления данными и их защиты, несмотря на предлагаемое наименование решения. Для унификации наименования далее будем использовать аббревиатуру DAG.

защита неструктурированных данных

Задачи, которые решают системы класса DAG

К основным задачам, которые решают системы DAG, относятся:

Поиск и классификация данных, которые в большом количестве хранятся в файлах и папках на различных порталах и серверах компании. Этот компонент помогает разделить данные по их критичности и присвоить им определенные метки, например: общедоступные, внутренние, конфиденциальные и строго конфиденциальные данные.
Контроль доступа, т. е. обеспечение полной видимости и прозрачности того, кто имеет доступ к данным, как он получен и что он может с ними делать (создание, чтение, изменение, удаление). Этот компонент обеспечивает возможность получения необходимой для анализа информации и принятия соответствующих мер для определения лиц, которым положено иметь те или иные права в зависимости от их обязанностей.
Определение и применение политик, которые относятся к тому, кто может получить доступ к каким данным, при каких условиях и для каких целей.
Аудит и мониторинг, направленные на получение информации по использованию и перемещению данных, позволяет организациям обнаруживать необычные или несанкционированные действия, а также любые действия по изменению прав доступа к файловым ресурсам. Этот компонент включает в себя регистрацию и отслеживание действий пользователей для обнаружения любых попыток несанкционированного доступа, нарушения политик и выявления любых отклонений.
Отчетность и аналитика. Консолидированные отчеты на основе обрабатываемых данных и событий помогают выявлять потенциальные риски, понимать закономерности использования данных и принимать обоснованные решения относительно контроля доступа.
Хранение и удаление данных. К этой части относится выявление неиспользуемых данных, определение сроков хранения информации в неструктурированном виде, порядок безопасного удаления данных. Такая функциональность позволяет избежать переполнения ресурсов, согласовать процессы с юридическими и бизнес-требованиями, а также безопасно аннулировать информацию, предотвращая утечки.

Взаимодействие с другими классами систем

Интеграция решений класса DAG с другими системами безопасности обеспечивает целостный подход к защите информации. Каждая компания хочет иметь возможность применять несколько уровней защиты, чтобы методы и технологические средства работали не изолированно, а комплексно, дополняли друг друга и являлись частью общей стратегии безопасности компании.

Интеграция DAG с системами управления доступом IdM/IGA дает возможность использовать общий подход к управлению доступом, основанный на ролевой модели, которая является основой технологии IdM. Такая интеграция позволяет использовать общую заявочную систему для оформления, согласования и исполнения запросов на предоставление прав, контролировать разграничение прав доступа из единого окна. С другой стороны, синергия этих технологий позволяет получить более детальную информацию, к каким именно данным пользователь получает доступ и насколько они критичны, т. е. система DAG передает в IdM информацию о контексте доступа на файловых ресурсах. В этом случае сразу будет ясно, содержат ли данные коммерческую или банковскую тайну, персональные данные клиентов и т. п.

Интеграция с системами обнаружения и анализа угроз – SIEM – дает возможность соотносить произошедшие изменения в доступе к файлам и анализировать действия, ориентированные на данные, с более широкой позиции. Системы DAG могут делиться ценной информацией, помогая обнаруживать аномалии, потенциальные утечки данных или попытки несанкционированного доступа.

Класс решений DLP – это технологии, которые помогают предотвратить несанкционированную утечку данных. Такие системы включают мониторинг и контроль данных в движении для выявления и предотвращения потенциальных угроз. Передача информации через корпоративную почту, USB-носители, веб-сервисы, социальные сети и мессенджеры – все будет проанализировано системой, и в результате любые попытки несанкционированных действий будут предотвращены. Интеграция с системой DAG обеспечит более эффективный подход в защите конфиденциальной информации компании. Эти системы могут использовать единые политики классификации/категоризации данных и единые правила для обеспечения защиты и конфиденциальности.

контроль неструктурированных данных

Solar DAG

Решение по контролю и защите неструктурированных данных Solar DAG является достаточно молодым, но уже способно решить амбициозные задачи клиентов. Его применение дает исчерпывающие ответы на вопросы:

Где хранится критически важная информация и кто с ней работает?
Соблюдаются ли политики хранения информации на файловых серверах?
Кто и каким образом меняет структуру прав доступа к файлам и папкам?
Обеспечиваются ли требования регуляторов по хранению и использованию конфиденциальной информации?
Какие инструменты можно применить для снижения рисков утечки или несанкционированной модификации критически важной информации?

Важным преимуществом технологии Solar DAG является высокая производительность системы, что позволяет работать с большим объемом данных и контролировать действия большого количества пользователей, в сочетании с лучшими практиками и апробированными технологическими инструментами, применение которых обеспечивает команда экспертов с многолетним опытом внедрения и эксплуатации решений такого класса.

Заключение

Контроль доступа к неструктурированным данным и внедрение технологических инструментов DAG (Data Access Governance) имеют ключевое значение для поддержания безопасности и целостности конфиденциальной информации. Решения такого класса помогают предотвращать несанкционированный доступ, утечки и инсайдерские угрозы, обеспечивать соблюдение требований, повышать культуру обращения с данными организаций и нести ответственность за их использование.

Автор: Людмила Севастьянова, эксперт центра продуктов Solar inRights ГК «Солар»

ДРУГИЕ СТАТЬИ ПРОДУКТА

Еще больше о наших возможностях

24.04.2024

Анализ неструктурированных данных

Узнать больше