Неструктурированные данные: что это такое, хранение, использование, управление

Нужна консультация?
Позвоните нам

+7 (495) 161-97-84

Консультация онлайн

Получить консультацию по Solar DAG

ФИО

Телефон

Согласие на получение последних новостей компании, сообщений рекламного и информационного характера.

Согласие на обработку персональных данных согласно политике обработки персональных данных.

Когда речь заходит о доступе, мы здраво рассуждаем, что нужно контролировать доступ к информационным системам организаций, нужно знать всех пользователей, которые получают права для работы с приложениями и базами данных, нужны эффективные средства автоматизации для управления этими процессами. Но зачастую на втором плане остается вопрос о хранении и получении доступа к многочисленным файлам и папкам, которые размещены на серверах компании. Почему это остается в серой зоне и за эту тему предпочитают не браться и не вспоминать о ней? Виной тому огромный объем работы, который нужно предварительно проделать, чтобы разобраться хоть в какой-то «структуре» этих неструктурированных данных, понять, что это за информация, где хранится и кем используется. А на следующем этапе определить, что с этим делать дальше: как наладить процессы ведения и разграничения данных, как поддерживать в них порядок, как отслеживать использование. К сожалению, у всех одни только вопросы, но совершенно нет ответов. Уже сейчас соотношение структурированных данных к неструктурированным не в пользу первых. А между тем мировые аналитики уже оценили масштабы роста количества неструктурированных данных. Международная аналитическая компания ITC прогнозирует, что к 2025 году объем данных вырастет до 175 зеттабайт (зетта = 10²¹) и бо́льшая их часть будет неструктурированной.

чем отличаются структурированные от неструктурированных данных

Структурированные, неструктурированные и полуструктурированные данные

Структурированные данные отличаются от неструктурированных прежде всего форматом, способом хранения и типом анализа. Формат хранения структурированных данных – это обычно реляционная база данных, т. е., проще говоря, таблица, где есть четко зафиксированные поля и строки с наименованием или нумерацией, и в ячейках этой таблицы хранятся данные. Искать информацию в таблицах довольно просто и для человека, и для машинного алгоритма. Чтобы осуществить поиск данных в такой структуре, используются различные средства, например специальный язык SQL (Structured Query Language), который позволяет формировать запросы к таблице и просматривать построенные выборки и отчеты для получения нужной информации. Примером структурированных данных может быть информация о финансовых операциях (транзакциях) в системах и приложениях, которые используются в банках, или информация о клиентах компании, хранящаяся в определенных таблицах. Эту информацию можно классифицировать и отобрать по разным категориям данных: по адресам, телефонам, ФИО и другим признакам, поэтому она и называется структурированной.

В крупных компаниях доступ к данным, которые хранятся и обрабатываются в автоматизированных информационных системах, как правило, разграничивается посредством ролевой модели, и это зона ответственности систем класса IdM/IGA.

Неструктурированные данные хранятся хаотично в неоднородных форматах. Это может быть текст, изображение, видео. В процессе работы в компаниях такого контента накапливается очень много и контролировать его создание, перемещение, обращение с ним очень сложно.

Одна их серьезных проблем состоит в том, что те данные, которые хранятся в определенных системах и приложениях в структурированном виде постоянно копируются, скачиваются и переносятся в файлы и папки в совершенно разных форматах. Почти каждая информационная система содержит функцию экспорта, а кроме того, можно банально сделать скриншот экрана. Таким образом, данные перестают быть структурированными, а превращаются в неструктурированные. И здесь компания фактически теряет контроль над ними. Например, бухгалтер сделал скриншот экрана, на котором была размещена часть бухгалтерского отчета и в формате картинки сохранил в папке на файловом сервере, далее он может отправить его по почте или через мессенджер коллеге или внешнему партнеру. Или аналитик выгрузил данные, содержащие коммерческую тайну на общедоступный сервер, и это неизбежно приведет к массовому доступу и распространению чувствительной информации.

Некоторые данные можно отнести к полуструктуриованным. Они по природе своей не структурированы, но используют внутренние теги и маркировку, которые позволяют их разделять, выделять среди них однотипные данные или строить иерархии. Например, к таким данным можно отнести данные языка XML (eXtensible Markup Language) – расширяемого языка разметки. При помощи XML можно описывать данные через теги. У этого языка есть логическая структура, и информацию, созданную с помощью XML, можно хранить и передавать в удобном формате, который понятен и человеку, и машине. Другим примером полуструктурированных данных может быть информация в электронной почте. Метаданные, которые используются в электронных письмах позволяют аналитическим инструментам классифицировать их и осуществлять поиск по ключевым словам. Также данные, которые хранятся на корпоративных порталах, таких, например, как Sharepoint, тоже попадают под определение полуструктурированных.

риски утечки неструктурированных данных

Риски при обращении с неструктурированными данными

Без строго контроля и постоянного мониторинга обращение с неструктурированными данными несет серьезные риски, такие как несанкционированное их использование, ошибки, утечка данных, несоблюдение нормативных требований.

Примеры инцидентов, связанных с использованием неструктурированных данных

Сотрудник аналитического отдела крупной ИТ-компании, готовясь к встрече, неосознанно загрузил файл, содержащий конфиденциальные данные клиентов, на общедоступную платформу обмена файлами. Данные стали доступны неуполномоченным лицам, что привело к их краже и нанесло ущерб репутации компании.

Сотрудник договорного отдела строительной компании получил по электронной почте документ, в который а выглядел как легитимный файл, но в который был внедрен вредоносный код. Сотрудник, ничего не подозревая, загрузил его на общий диск, после чего запустилась вредоносная программа и поставила под угрозу безопасность и целостность неструктурированных данных, хранящихся в организации.

Недовольный сотрудник исследовательского института, имея расширенные права, намеренно удалил конфиденциальные неструктурированные данные перед уходом из компании. Данные содержали интеллектуальную собственность учреждения, что привело к юридическим проблемам.

Один из руководителей логистической компании из-за неправильно настроенных средств разграничения доступа случайно удалил значительную часть неструктурированных данных, предполагая, что они уже не актуальны. Оказалось, что это была значимая информация, к которой смежное подразделение обращалось в конце каждого года для оценки работы. Этот инцидент привел к нарушению работы компании и сдвинул сроки закрытия года.

Хакеру удалось использовать уязвимости в инфраструктуре Active Directory государственного учреждения, и он получил несанкционированный доступ к неструктурированным данным, хранящимся на файловых серверах Windows в открытом виде. Это привело к утечке конфиденциальной информации.

И это далеко не полный перечень инцидентов, произошедших за последнее время. Мы то и дело читаем о подобных случаях в СМИ, а сколько еще болезненных ситуаций, связанных с потерями, которые предпочитают не разглашать?!

Технология DAG – Data Access Governance

Не отчаиваемся – для защиты неструктурированных данных выход есть! И это специализированные решения по защите – DAG (Data Access Governance). Системы такого класса помогают организациям создать полноценную среду для управления и контроля доступа к данным, хранящимся в неструктурированном виде на файловых ресурсах компании. Сюда входит настройка утвержденных политик, обеспечение соблюдения правил категоризации данных и разграничения доступа к ним, проведение регулярных проверок по соблюдению требований и выявление любых отклонений от утвержденных политик. Все эти аспекты в конечном счете обеспечивают основные принципы информационной безопасности – целостность, конфиденциальность и доступность данных.

В материалах и предложениях поставщиков можно встретить два наименования решений ИБ, которые фокусируются на неструктурированных данных. Это DAG – Data Access Governance, и DCAP – Data Centric Audit and Protection. У многих возникает вопрос: в чем их разница? В целом решения DAG фокусируются на управлении доступом пользователей, обеспечении соответствия требованиям, также включая в себя и технологии DCAP, т. е. это более широкий взгляд и подход. Тогда как системы класса DCAP фокусируются на обеспечении безопасности и защиты самих данных, т. е. это уже концентрация именно на их содержимом и более детальный подход к тому, что именно нужно защищать. Это читается и в самих наименованиях продуктов.

На самом деле оба подхода дополняют друг друга и часто используются вместе для обеспечения комплексного управления данными и их защиты, несмотря на предлагаемое наименование решения. Для унификации наименования далее будем использовать аббревиатуру DAG.

защита неструктурированных данных

Задачи, которые решают системы класса DAG

К основным задачам, которые решают системы DAG, относятся:

Поиск и классификация данных, которые в большом количестве хранятся в файлах и папках на различных порталах и серверах компании. Этот компонент помогает разделить данные по их критичности и присвоить им определенные метки, например: общедоступные, внутренние, конфиденциальные и строго конфиденциальные данные.
Контроль доступа, т. е. обеспечение полной видимости и прозрачности того, кто имеет доступ к данным, как он получен и что он может с ними делать (создание, чтение, изменение, удаление). Этот компонент обеспечивает возможность получения необходимой для анализа информации и принятия соответствующих мер для определения лиц, которым положено иметь те или иные права в зависимости от их обязанностей.
Определение и применение политик, которые относятся к тому, кто может получить доступ к каким данным, при каких условиях и для каких целей.
Аудит и мониторинг, направленные на получение информации по использованию и перемещению данных, позволяет организациям обнаруживать необычные или несанкционированные действия, а также любые действия по изменению прав доступа к файловым ресурсам. Этот компонент включает в себя регистрацию и отслеживание действий пользователей для обнаружения любых попыток несанкционированного доступа, нарушения политик и выявления любых отклонений.
Отчетность и аналитика. Консолидированные отчеты на основе обрабатываемых данных и событий помогают выявлять потенциальные риски, понимать закономерности использования данных и принимать обоснованные решения относительно контроля доступа.
Хранение и удаление данных. К этой части относится выявление неиспользуемых данных, определение сроков хранения информации в неструктурированном виде, порядок безопасного удаления данных. Такая функциональность позволяет избежать переполнения ресурсов, согласовать процессы с юридическими и бизнес-требованиями, а также безопасно аннулировать информацию, предотвращая утечки.

Взаимодействие с другими классами систем

Интеграция решений класса DAG с другими системами безопасности обеспечивает целостный подход к защите информации. Каждая компания хочет иметь возможность применять несколько уровней защиты, чтобы методы и технологические средства работали не изолированно, а комплексно, дополняли друг друга и являлись частью общей стратегии безопасности компании.

Интеграция DAG с системами управления доступом IdM/IGA дает возможность использовать общий подход к управлению доступом, основанный на ролевой модели, которая является основой технологии IdM. Такая интеграция позволяет использовать общую заявочную систему для оформления, согласования и исполнения запросов на предоставление прав, контролировать разграничение прав доступа из единого окна. С другой стороны, синергия этих технологий позволяет получить более детальную информацию, к каким именно данным пользователь получает доступ и насколько они критичны, т. е. система DAG передает в IdM информацию о контексте доступа на файловых ресурсах. В этом случае сразу будет ясно, содержат ли данные коммерческую или банковскую тайну, персональные данные клиентов и т. п.

Интеграция с системами обнаружения и анализа угроз – SIEM – дает возможность соотносить произошедшие изменения в доступе к файлам и анализировать действия, ориентированные на данные, с более широкой позиции. Системы DAG могут делиться ценной информацией, помогая обнаруживать аномалии, потенциальные утечки данных или попытки несанкционированного доступа.

Класс решений DLP – это технологии, которые помогают предотвратить несанкционированную утечку данных. Такие системы включают мониторинг и контроль данных в движении для выявления и предотвращения потенциальных угроз. Передача информации через корпоративную почту, USB-носители, веб-сервисы, социальные сети и мессенджеры – все будет проанализировано системой, и в результате любые попытки несанкционированных действий будут предотвращены. Интеграция с системой DAG обеспечит более эффективный подход в защите конфиденциальной информации компании. Эти системы могут использовать единые политики классификации/категоризации данных и единые правила для обеспечения защиты и конфиденциальности.

контроль неструктурированных данных

Solar DAG

Решение по контролю и защите неструктурированных данных Solar DAG является достаточно молодым, но уже способно решить амбициозные задачи клиентов. Его применение дает исчерпывающие ответы на вопросы:

Где хранится критически важная информация и кто с ней работает?
Соблюдаются ли политики хранения информации на файловых серверах?
Кто и каким образом меняет структуру прав доступа к файлам и папкам?
Обеспечиваются ли требования регуляторов по хранению и использованию конфиденциальной информации?
Какие инструменты можно применить для снижения рисков утечки или несанкционированной модификации критически важной информации?

Важным преимуществом технологии Solar DAG является высокая производительность системы, что позволяет работать с большим объемом данных и контролировать действия большого количества пользователей, в сочетании с лучшими практиками и апробированными технологическими инструментами, применение которых обеспечивает команда экспертов с многолетним опытом внедрения и эксплуатации решений такого класса.

Заключение

Контроль доступа к неструктурированным данным и внедрение технологических инструментов DAG (Data Access Governance) имеют ключевое значение для поддержания безопасности и целостности конфиденциальной информации. Решения такого класса помогают предотвращать несанкционированный доступ, утечки и инсайдерские угрозы, обеспечивать соблюдение требований, повышать культуру обращения с данными организаций и нести ответственность за их использование.

Автор: Людмила Севастьянова, эксперт центра продуктов Solar inRights ГК «Солар»

ДРУГИЕ СТАТЬИ ПРОДУКТА

Еще больше о наших возможностях

24.09.2025

Интеграция DAG-системы с платформой IdM

Узнать больше

10.09.2025

Доступ к конфиденциальной информации

Узнать больше

08.08.2025

Хранение данных пользователей

Узнать больше

07.08.2025

Хранение данных: современные подходы и эффективные решения

Узнать больше

06.08.2025

Аудит файловой системы

Узнать больше

05.08.2025

Мандатная модель управления доступом

Узнать больше

18.07.2025

Доступ к системе хранения данных

Узнать больше

09.07.2025

Обмен информацией

Узнать больше

08.07.2025

Хранение конфиденциальной информации

Узнать больше

07.07.2025

Data Governance

Узнать больше

Выберите темы, на которые бы вам было интересно получать новости.

Ежемесячный дайджест новостей

Анонсы вебинаров

Аналитические отчеты и полезные материалы

Экспертный блог 4RAYS

Нажимая "Подписаться на рассылку", вы даете согласие на обработку своих данных согласно политике обработки персональных данных.

Запросить консультацию

Компания/ИНН *

Начните вводить название компании или ИНН и система сама подскажет варианты

Укажите ваши ФИО *

8 (999) 999-99-99 *

E-mail *

Согласие на получение последних новостей компании, сообщений рекламного и информационного характера.

Ошибка: обязательно для заполнения

Cогласие на обработку персональных данных согласно политике обработки персональных данных.

Ошибка: обязательно для заполнения

Защитите бизнес
от штрафов по 420‑ФЗ

Получите запись вебинара от юриста «Солара» с понятными шагами для снижения риска утечек персональных данных. Все решения можно внедрить всего за неделю.

Что вы узнаете из записи:

Ключевые требования 420-ФЗ и примеры реальных нарушений
Алгоритм защиты данных: от политики до технических мер
Чек-лист для аудита и шаблон уведомления об инциденте

Ваш e-mail для связи*

Согласие на получение последних новостей компании, сообщений рекламного и информационного характера. Нажимая «Получить материалы», вы даете согласие на обработку своих данных согласно политике обработки персональных данных.

Для просмотра контента вам нужно авторизоваться на сайте. Для этого заполните свой мейл

E-mail *

Согласие на получение последних новостей компании, сообщений рекламного и информационного характера.

Ошибка: обязательно для заполнения

Согласие на обработку персональных данных согласно политике обработки персональных данных .

Ошибка: обязательно для заполнения