Во-вторых, даже если офицеру безопасности удастся обнаружить факт утечки, то он все равно уже не сможет ее предотвратить. Ведь агент PC Acme зафиксировал совершенное в прошлом действие, и конфиденциальная информация уже давно дошла до получателя. Конечно, можно предъявить претензии самому инсайдеру, но блокировать утечку таким способом невозможно.
Таким образом, программа PC Acme не только не обладает комплексностью, но и не препятствует утечке в принципе. Более того, журналы событий, которые ведутся каждым представленным в обзоре продуктом, всегда достаточно подробны, чтобы вычислить инсайдера постфактум и служить доказательством при обвинении инсайдера. При этом в этих журналов, в отличие от протокола PC Acme, зафиксированы действия лишь с конфиденциальными данными, а не все системные события подряд.
Можно было бы предположить, что продукт PC
Acme подойдет для
маленьких компаний, где за действиями, например, десяти пользователей вполне
реально проследить, периодически проверяя журнал событий. Однако выделение
функций ИТ-безопасности в отдельную должность офицера для малого бизнеса - это
нонсенс. [7]
.1.2.2.5 Verdasys Digital Guardian
Американская компания Verdasys поставляет комплексное решение Digital Guardian, предназначенное для выявления и предотвращения утечек прямо на уровне рабочих станций. При этом продукт невозможно упрекнуть в отсутствии комплексности, так как Digital Guardian покрывает все каналы утечки, просто это делает это в тех местах, где информация используется.
Реализацией такого подхода являются программные агенты, устанавливаемые на персональные компьютеры и ноутбуки в организации. Агенты поддерживают работу в операционной системе Windows, а также в среде Citrix Metaframe и Microsoft Terminal Server. Агенты отвечают за ведение подробных журналов; контроль над приложениями, коммуникациями и данными; выявление нарушений политики; фильтрацию событий, записанных в журнал, перед отправкой на сервер Digital Guardian.
Точно так же, как в случае PC
Acme, агент Digital
Guardian является невидимым
для пользователя, может быть внедрен удаленно и централизованно. Однако, в
отличие от PC
Acme, в составе Digital
Guardian появляется сервер
(рис 1.10), на который агенты отсылают протоколы событий. Третьим компонентов
продукта является консоль управления, к которой можно получить доступ по сети.
Консоль позволяет составлять отчеты, собирать и анализировать информацию,
контролировать инсталляцию агентов, управлять политиками и т.д.
Рис 1.10 Архитектура Digital
Guardian
Продукты Verdasys отличаются широким спектром сопроводительных услуг. Так, поставщик оказывает консалтинговые услуги еще до внедрения проекта, разрабатывает и внедряет предварительные проекты (например, создается экспериментальная группа рабочих станций, осуществляется мониторинг действий пользователей этих станций и анализируются результаты), глубокое участие поставщика во внедрении продукта и тренинги персонала.
Тем не менее, Digital Guardian обладает двумя недостатками. Во-первых, он не позволяет архивировать электронную корреспонденцию, что затрудняет расследование инцидентов ИТ-безопасности, усложняет процесс поиска инсайдера и не позволяет обеспечить соответствие с различными законам и нормативными актами. Во-вторых, Digital Guardian не производит контентную фильтрацию, отправляемого по сети трафика. Это вытекает из того, что фильтрация, вынесенная на уровне рабочей станции, требует огромного количества аппаратных ресурсов. К такому выводу пришли эксперты IDC. К тому же, это вполне логично: фильтрацию, с использованием лингвистического анализа, другие поставщики осуществляют на выделенных серверах. Следовательно, агенты Digital Guardian в состоянии отличить чувствительные документы от не конфиденциальных только с помощью заранее заданного списка защищаемых объектов (или помеченных цифровыми водяными знаками, что не суть важно). Отсюда, если пользователь создаст новый документ и наполнит его чувствительными сведениями, например, в рамках подготовки отчета (ведь работу с буфером обмена контролируется агентами), то этот документ будет оставаться уязвимым до тех пор, пока не будет внесен в список защищаемых объектов. Именно чтобы исключить такую брешь, разработчики решений в сфере выявления и предотвращения утечек применяют контентную фильтрацию.
Как уже отмечалось, при выборе решения необходимо учитывать параметр комплексности - покрывает ли продукт все возможные каналы утечки. В противном случае данные утекут через оставленную открытой «дверь». Следующим немаловажным моментом является возможность создавать и хранить архивы корпоративной корреспонденции. Такая функциональность позволяет провести служебное расследование, не беспокоя сотрудников и не привлекая внимания. Вдобавок к тому, что хранить электронные сообщения в течение нескольких лет требуют многие нормативные акты и законы, создание централизованного почтового архива позволяет избавиться от порочной практики ареста рабочих станций служащих. Наконец, последним важным параметром является возможность выбора между программной и аппаратной реализацией модулей, отвечающих за фильтрацию сетевого трафика. [7]
Таблица 1.2 Функционал программных решений по защите от утечек информации
|
|
Authentica ARM Platform |
InfoWatch Enterprise Solution |
Onigma Platform |
PC Acme |
Verdasys Digital Guardian |
|
Контроль над почтовым трафиком |
Да |
Да |
Да |
Нет |
Да |
|
Контроль над веб-трафиком |
Да |
Да |
Да |
Нет |
Да |
|
Контроль над рабочими станциями |
Да |
Да |
Да |
Да |
Да |
|
Комплексность (на основании предыдущих трех параметров) |
Да |
Да |
Да |
Нет |
Да |
|
Создание архива корпоративной корреспонденции |
Нет |
Да |
Нет |
Нет |
Нет |
|
Выбор между программной и аппаратной реализацией некоторых модулей |
Нет |
Да |
Нет |
Нет |
Нет |
|
Наличие широкого спектра сопроводительных и консалтинговых услуг |
Да |
Да |
Нет |
Нет |
Да |
|
Особенности решения |
Встроенный модуль шифрования |
Каждый заказчик получает персонального менеджера технической поддержки |
Нет особенностей |
Крайне низкая цена |
Нет особенностей |
1.1.3 Вывод
Ни один разработчик не предлагает сегодня аппаратных модулей для предотвращения утечек через ресурсы рабочих станций (порты, принтеры, приводы и т.д.), так как эффективность этой технологии сомнительна. Однако обеспечить контроль над почтовым или web-трафиком с помощью отдельного устройства, а не выделенного сервера вполне логично.
В отличие от программных модулей, автономные устройства могут быть легко развернуты и не требуют серьезного сопровождения. Также в большинстве случаев аппаратное решение обладает более высокой производительностью. Однако программные компоненты, работающие на выделенных серверах, в некоторых случаях обладают большей гибкостью и возможностями более тонкой настройки. Кроме того, программные модули чаще всего обходятся значительно дешевле аппаратных. Поэтому к выбору того или иного решения необходимо подходить более чем основательно. Следующим немаловажным моментом является возможность создавать и хранить архивы корпоративной корреспонденции. Такая функциональность позволяет провести служебное расследование, не беспокоя сотрудников и не привлекая внимания. Вдобавок к тому, что хранить электронные сообщения в течение нескольких лет требуют многие нормативные акты и законы, создание централизованного почтового архива избавляет от порочной практики ареста рабочих станций служащих. Наконец, последним важным параметром является возможность выбора между программной и аппаратной реализацией модулей, отвечающих за фильтрацию сетевого трафика.
При выборе решения необходимо учитывать параметр
комплексности - покрывает ли продукт все возможные каналы утечки. В противном
случае данные утекут через оставленную открытой дверь. [8]
1.2 Постановка задачи
Разработать программный модуль обнаружения текстовых областей в графических файлах для решения задач предотвращения утечки конфиденциальной информации.
Цель:
обеспечение информационной безопасности автоматизированной системы;
предотвращение распространения конфиденциальной информации в графических файлах.
Задача:
разработать подсистему обнаружения текстовых областей в графическом файле.
Требования:
подсистема должна выводить отчет об исследованных графических файлах;
результаты исследования должны зависеть от
заданных критериев.
.2.1 Обоснование средств решения поставленной задачи
Изучив готовые решения по защите автоматизированных систем, которые существуют на данный момент и, учитывая все требования, программный модуль должен находить текстовые области в графических файлах, которые могут содержать в себе конфиденциальную информацию и сообщать о них для дальнейшего их исследования другими модулями системы защиты.
Главной особенностью данного модуля будет являться быстрое обнаружение нужных текстовых областей. Это позволит передавать на дальнейшее исследование другим модулям системы защиты для распознавания образов на предмет наличия конфиденциальной информации только те файлы, в которых содержатся текстовые области, удовлетворяющие определенным условиям. Это поможет ускорить обработку графической информации и работу системы защиты в целом, и добавит свойство комплексности системам защиты.
В основу методики взяты существующие алгоритмы
обнаружения текстовых областей. Для ее реализации был выбран язык
программирования Python
2.6.
.3 Разработка алгоритма обнаружения текстовых
областей в графических файлах
.3.1 Анализ алгоритмов обнаружения текстовых
областей
.3.1.1 Алгоритм «Быстрое и эффективное текстовое обнаружение»
Алгоритм «Быстрое и эффективное текстовое
обнаружение» разработан в Университете Дипломированного специалиста китайской
Академии Наук, Пекин, Китай.
Рис 1.11 Блок-схема алгоритма «Быстрое и
эффективное текстовое обнаружение»
Для оригинального изображения сначала
используется «штриховой фильтр», который вычисляет горизонтальную, вертикальную
и диагональные штриховые карты. Затем дважды используется SVM
алгоритм, так называемый «Метод опорных векторов» чтобы классифицировать
текстовые блоки, нетекстовые блоки и сам текст. [15]
.3.1.1.1 Генерация Штриховых Карт
Рис. 1.12 Иллюстрация штрихового фильтра
Изначально цветное изображение преобразуется в полутоновое «grayscale», после чего генерируется горизонтальная, вертикальная и диагональные штриховые карты (рисунок 1.12).
Значение ![]()
штрих фильтра в центральной точке ![]()
зависит от значений пикселя в трех
прямоугольных областях, где ![]()
- три параметра, которые
соответствуют ориентации, длине и ширине штриха соответственно. [15]
утечка конфиденциальная информация
Где ![]()
- интенсивности пикселей по всем
трем регионам;
![]()
- это стандартное отклонение
интенсивности пикселей.
В этом методе формула имеет вид:
.3.1.1.2 Обнаружение блоков текста
С помощью подвижного окна размеров W*H, которое
проходит по изображению SVM классификатор
идентифицирует, существует ли потенциальный текстовый блок в данной позиции,
покрытый подвижным окном B. Для каждого подвижного окна
вычисляется «штриховая карта». Текстовые блоки обычно имеют существенные
вычисленные значение по всем четырем направлениям. В данном случае используются
статистические особенности в штриховых картах, чтобы фиксировать эти свойства. Конкретно,
особенности включают: малое, дисперсию и взвешенную энергию.
Чтобы характеризовать
пространственное распределение штрихов, мы определяем соответствующие
особенности: вертикальную и горизонтальную конфигурации накопления. Для каждого
подвижного окна в вертикальной штриховой карте они одинаково разделены на
восемь областей прямоугольников. В каждом прямоугольнике вертикальная
«VAP» вычисляется следующим образом:
Идентично и для каждого подвижного
окна в горизонтальной штриховой карте:
Таким образом, каждый блок, покрытый подвижным окном, представлен 24-мерным характеристическим вектором.
По сравнению с другими классификаторами, такими как нейронная сеть, решающее дерево и другие, SVM классификатор нуждается в меньшем количестве учебных выборок и имеет лучшую способность обобщения. Таким образом, был выбран SVM классификатор, чтобы получить блоки текста кандидата.
В данном примере SVM классификатор
обучался на наборе данных, состоящем из 240 текстовых блоков и 480 нетекстовых
блоков. Если вывод классификатора SVM будет
положительным, то пиксели в подвижном окне будут полностью помечены как текст.
Двигающийся шаг подвижного окна горизонтально W / 2,
вертикально H / 2. В
результате создается двойное изображение маски, белые области которого
представляют области текста кандидата, а черная область представляет фон. [15]
Рис. 1.13 Грубое текстовое обнаружение
.3.1.1.3 Извлечение строк текста кандидата
Как видно из рисунка 1.13, области
кандидата могут покрывать несколько нетекстовых областей. Таким образом,
используются следующие шаги для разделения и установления текстовых областей:
Рис 1.14 Разделение областей
Разделение области в маленькие прямоугольники (рисунок 1.14(b));
Если промежуток в горизонтальной строке меньше 1/6 длинны всей строки, то нужно объединить его (рисунок 1.14(c));
Для двух вертикально смежных прямоугольников, если ширина более короткого прямоугольника превышает 4/5 ширины более длинного, то необходимо объединить их в больший прямоугольник, высота которого - сумма их высот, а ширина - максимум ширины одного из прямоугольников (рисунок 1.14(d,e));
Если высота прямоугольника - меньше чем 1/3 высоты его вертикально смежного прямоугольника, то необходимо объединить их также как на предыдущем шаге.
Когда все прямоугольники получены,
используется горизонтальный и вертикальный метод проектирования, чтобы эффективно
ограничить текстовые строки. Значения интенсивности, используемые в оценке
проектирования, являются суммой «откликов» в четырех штриховых картах. Для
сгенерированного граничного соответствия прямоугольников текстовым строкам
удалены некоторые очевидные нетекстовые прямоугольники, если их высоты не
принадлежат диапазону ![]()
, или их коэффициент
пропорциональности превышает определенный порог ![]()
. Рисунок 1.13(d) показывает
конечные строки предполагаемого текста после операции проектирования. [15]