При выполнении рабочих задач сотрудникам организаций часто приходится иметь дело с отсканированными или написанными от руки документами, печатными изданиями. В оцифрованном виде все перечисленное предстает в виде изображений с текстовым содержимым, но часто появляется необходимость перевести данные в читаемый формат для дальнейшей обработки или анализа. С задачей трансформации справятся инструменты оптического распознавания символов. Рассказываем, что это за алгоритмы, как они реализованы в решениях для контроля трафика.

Что такое оптическое распознавание символов

Оптическое распознавание или OCR (Optical Character Recognition) — автоматическое преобразование текстовой информации с видео, рукописных записей, изображений и сканов документов в редактируемый машиночитаемый формат. 

Существует два механизма OCR:

  • Традиционный — работа с печатными документами. В этом случае алгоритм без проблем распознает шрифты, поскольку система уже знает все распространенные стили.
  • Рукописный — работа с рукописными документами. Эта техника сложнее, поскольку у каждого человека уникальный стиль письма. Чтобы система могла распознавать тексты, ей потребуется дополнительное обучение. 

Расскажем подробнее, как OCR работает с печатным документом. Инструмент вычленяет с изображения текст, разбивает его на символы, которые накладывает на готовые шаблоны. Идентифицированные символы преобразуются в соответствующие им коды, а затем в привычный текст.

Предварительно OCR-движки готовят изображение, чтобы было проще его обрабатывать. В настройках инструментов можно задать корректировку перекосов строк, инверсию цвета, преобразование в черно-белый формат и т.д. Задача — устранить все искажения, мешающие распознавать символы. 

Виды технологий оптического распознавания символов 

Различают простые механизмы OCR и интеллектуальное распознавание. Первые умеют символ за символом сопоставлять текст с шаблонами, но ограничены достаточно узкой базой шрифтов. 

Вторые — инструменты интеллектуального распознавания — предварительно проходят обучение и затем читают тексты практически как человек. Они несколько раз обрабатывают изображения, выделяя различные атрибуты для более подробного анализа текста. Такие программы чаще всего работают не с отдельными символами, а с целыми словами, что позволяет ускорить процесс преображения в удобный формат. 

Некоторые программы интеллектуального распознавания также способны идентифицировать различные обозначения с изображений, например, водяные знаки или логотипы. 

Этапы оптического распознавания символов

Условно можно выделить четыре этапа распознавания текстового содержимого с изображения:

  • Преобразование документа в формат изображения. Сканер распознает файлы и представляет их в виде двоичных данных. Затем алгоритмы анализируют полученную картинку, воспринимая светлые области как фон, темные — как текстовую составляющую.
  • Подготовка текстового содержимого: выравнивание, стирание рамок, регулировка контраста, устранение лишних элементов, идентификация шрифтов.
  • Распознавание текста методом сопоставления шаблонов или поиска признаков. В первом случае текст сравнивается с базой шрифтов, с которыми инструмент уже знаком. Метод выделения признаков подразумевает изучение линий, характера контуров букв. Таким способом алгоритмы определяют наиболее подходящие к образцу шрифты.
  • Обработка полученного текста и его трансформация в удобный формат, например, PDF-файл. 

Точный алгоритм распознавания зависит от используемого инструмента OCR и формата анализируемого документа. 

этапы оптического распознавания символов

Как оптическое распознавание символов помогает предотвратить утечку данных 

OCR-технологии сейчас используются все чаще, в том числе просто с целью из интереса «прочитать изображение». Однако у них есть и более целевые задачи. Например, OCR могут присутствовать в составе DLP-систем, которые входят в базовый арсенал корпоративных средств защиты данных и выполняют важнейшие функции — контроль движения трафика и предотвращение утечек данных. Причем они не просто контролируют трафик, а также анализируют содержимое файлов, отслеживают все сообщения. Но сами DLP-системы не умеют выделять текст из изображений, поэтому на помощь приходит вспомогательный модуль оптического распознавания символов. Другие технологии не предоставляют возможности распознавания графической информации, поэтому этот алгоритм пока остается единственным классом решений с такой функцией.

Может возникнуть вопрос, оправдана ли реализация такого модуля в DLP-системе? Да, поскольку система может прогонять через себя тысячи и даже миллионы изображений с текстовым содержимым ежедневно.

Как технология оптического распознавания символов реализована в Solar Dozor

В DLP-системе Solar Dozor реализовано несколько модулей для всестороннего отслеживания трафика, в числе которых и OCR. Как работает технология в рамках нашего продукта:

  • Сервис фильтрации перехватывает сообщения с изображениями (фото, картинками, сканами документов), затем извлекает графическое содержимое и отправляет на анализ в модуль OCR.
  • Модуль OCR обрабатывает полученные изображения в соответствии с заданными настройками и выдает DLP-системе сообщения в текстовом формате. Solar Dozor проводит контентный и контекстный анализ извлеченного текста и проверяет его на предмет нарушения политик безопасности.

Модуль OCR в Solar Dozor анализирует информацию из различных каналов перехвата, в том числе:

  • Корпоративная почта – анализ переписки пользователей;
  • Сетевые хранилища – обнаружение конфиденциальной информации в сетевых папках пользователей и корпоративных хранилищах;
  • Веб-трафик – информация, передаваемая по сети.

OCR-модуль в Solar Dozor поддерживает следующие форматы графических файлов:

  • BMP (Bitmap Picture);
  • JPEG (в том числе JPEG2000);
  • PNG (в том числе ISO 15948 и RFC 2083);
  • TIFF (в том числе ISO 12639, ISO 12234-2);
  • PDF (в том числе IDO 32000, PDF/A, PDF/E, PDF/UA, PDF/VT, PDF/X).

Заключение

Оптическое распознавание символов, или OCR, часто используется в составе DLP-систем и помогает в процессах детектирования конфиденциальных сведений в отсканированных файлах. С помощью этой технологии можно обнаружить несанкционированную передачу данных в формате сканов и фото, которые относятся к категории коммерческой тайны, информации ограниченного доступа. В DLP-системе Solar Dozor тоже реализован такой алгоритм с возможностью настройки модуля под специфические задачи заказчиков и конкретные проекты.