Обнаружение утечек: анализ технологий DLP-систем
04.05.12Ни для кого не секрет, что самый надежный способ избежать утечки данных – полностью перекрыть все возможные каналы связи. Однако в современных условиях это просто-напросто нереально. Сегодня многие компании не могут отказаться от съемных накопителей, которые достаточно активно используются в бизнес-процессах. А об отказе от использования Интернета и принтеров даже говорить не приходится!
Поскольку полностью запретить использование потенциально опасных каналов не представляется возможным, возникает задача их контроля. Суть этой задачи заключается в мониторинге всей передаваемой информации, выявлении среди нее конфиденциальной и выполнении тех или иных операций, заданных политиками безопасности. Понятно, что основной, самой важной задачей является анализ данных. Именно от его качества зависит эффективность работы всей DLP-системы.
Задачу анализа потока данных с целью выявления конфиденциальных можно смело назвать нетривиальной. Слишком уж много передается разнообразной информации. Вследствие этого поиск нужной оказывается серьезно осложнен множеством требующих учета факторов. Поэтому, на сегодняшний день разработано несколько технологий для детектирования попыток передачи конфиденциальных данных. Каждая из них отличается от других своим принципом работы.
Условно все способы обнаружения утечек можно разделить на две группы. К первой относятся те технологии, которые основаны на анализе непосредственно самих текстов передаваемых сообщений или документов (морфологический и статистический анализы, шаблоны). По аналогии с антивирусной защитой их можно назвать проактивными. Вторую группу составляют рекативные способы (цифровые отпечатки и метки). Они определяют утечки по свойствам документов или наличию в них специальных меток.
Каждый способ обнаружения утечек обладает своими преимуществами и недостатками, и использование данных технологий является взаимодополняющим. А поэтому мы подробно разберем их и выясним, в каких ситуациях используется та или иная технология.
Морфологический анализ
Морфологический анализ является одним из самых распространенных контентных способов обнаружения утечек конфиденциальной информации. Суть этого метода заключается в поиске в передаваемом тексте определенных слов и/или словосочетаний. И, хотя это звучит очень просто, на самом деле он относится к числу самых сложных в реализации методов. Дело в том, что строгий поиск только указанных выражений сам по себе бесполезен, необходим морфологический поиск, в котором учитываются все возможные формы заданных слов.
Главным преимуществом рассматриваемого метода является его универсальность. С одной стороны, морфологический анализ может использоваться для контроля любых каналов связи, начиная с файлов, копируемых на съемные накопители, и заканчивая сообщениями в ICQ, Skype, социальных сетях и пр. А с другой – с его помощью могут исследоваться любые тексты и искаться любая информация. При этом конфиденциальные документы не нуждаются в какой-либо предварительной обработке. А защита начинает действовать сразу после включения правил обработки и распространяется на все заданные каналы связи.
Основным недостатком морфологического анализа является относительно низкая эффективность определения конфиденциальной информации. Причем зависит она как от используемых в системе защиты алгоритмов, так и от качества семантического ядра, применяющегося для описания защищаемых данных. Также немалое значение имеют и сами анализируемые тексты. Именно поэтому заранее предсказать степень эффективности обнаружения в передаваемом трафике конфиденциальных данных достаточно сложно. Увеличить ее можно точным подбором семантического ядра. Также при использовании морфологического анализа нужно учитывать риск ложного срабатывания системы защиты на вполне безобидные тексты. Его степень также зависит от семантического ядра и исследуемого трафика.
Однако, несмотря на достаточно серьезные недостатки, морфологический анализ на сегодняшний день является единственно возможным методом обнаружения произвольной информации в любых текстах. Морфологические алгоритмы постоянно совершенствуются, что повышает его точность.
Говоря о морфологическом анализе, следует упомянуть о словарях, которые позволяют увеличить эффективность морфологического анализа, а также упрощают работу с ним. Они представляют собой списки слов на одну тематику, которые могут использоваться для обнаружения конфиденциальной информации. Словари значительно упрощают настройку морфологического анализа. Их использование позволяет при необходимости внесения корректировок в параметры защиты не редактировать вручную все правила, а только изменить состав нужного списка. При этом изменится работа всех правил, в которых используется данный словарь.
Кроме того, в некоторых DLP-решениях существует функция генерации семантического ядра. Она также основана на использовании словарей. Суть данной функции сводится к сканированию указанного набора документов (например, папки с договорами), в ходе которого по специальному алгоритму выбираются слова и выражения, могущие использоваться для описания текстов этого типа. Из них автоматически формируется словарь, который остается только вставить в правила морфологического анализа.
Данный метод еще относительно мало распространен в DLP-системах. На данный момент он присутствует в решениях буквально нескольких разработчиков. Тем не менее, не признать перспективность его применения нельзя. Сами разработчики, рекламируя данную технологию, используют термин «искусственный интеллект». Не будем спорить о том, оправдано это или нет. Отметим только, что в его основе лежит именно статистический анализ. Простейшим примером такой технологии является байесовский алгоритм, который используется практически во всех антиспам-фильтрах. Естественно, в DLP-решениях статистический анализ получил дальнейшее развитие и ориентирован именно на поиск информации конфиденциального характера.
Принцип работы статистических методов заключается в вероятностном анализе текста, который позволяет предположить его конфиденциальность или открытость. Для их работы обычно требуется предварительное обучение алгоритма. В ходе него вычисляется вероятность нахождения тех или иных слов, а также словосочетаний в конфиденциальных документах.
Преимуществом статистического анализа является его универсальность. При этом стоит оговориться, что данная технология работает в штатном режиме только в рамках поддержания постоянного обучения алгоритма. Так, например, если в процессе обучения системе было предложено недостаточное количество договоров, то она не сможет определять факт их передачи. То есть качество работы статистического анализа зависит от корректности его настройки (обучения). При этом необходимо учитывать вероятностный характер данной технологии. Она только делает предположение (в процентах) того, что анализируемый текст относится к разряду конфиденциальных.
Шаблоны
Во многих случаях конфиденциальная информация представляет собой некоторые стандартизованные данные, например, адреса, телефоны, серии и номера паспортов или каких-либо иных документов, банковские реквизиты, ИНН и пр. Особенно часто это встречается в персональных данных сотрудников или клиентов компании. Для обнаружения попыток передачи такой информации существует специальный весьма эффективный метод – шаблоны.
Суть метода проста. Администратор безопасности определяет строковый шаблон конфиденциальных данных: количество символов и их тип (буква или цифра). После этого система начинает искать в анализируемых текстах сочетания, удовлетворяющие ему, и применять к найденным файлам или сообщениям указанные в правилах действия.
Главным преимуществом шаблонов является высокая эффективность обнаружения передачи конфиденциальной информации. Применительно к инцидентам случайных утечек она стремится к ста процентам. Случаи с преднамеренными пересылками сложнее. Зная о возможностях используемой DLP-системы, злоумышленник может противодействовать ей, в частности, разделяя символы различными символами. Поэтому используемые методы защиты конфиденциальной информации должны держаться в секрете.
К недостаткам шаблонов относится, в первую очередь, ограниченная сфера их применения. Они могут использоваться только для стандартизованной информации, например, для защиты персональных данных. Еще одним минусом рассматриваемого метода является относительно высокая частота ложных срабатываний. Например, номер паспорта состоит из шести цифр. Но, если задать такой шаблон, то он будет срабатывать каждый раз, когда встретится шесть цифр подряд. А это может быть номер договора, отсылаемый клиенту, сумма и т. п.
В некоторых DLP-решениях технология шаблонов получила развитие, позволяющее нивелировать описанный выше недостаток. Достигается это за счет ее расширения дополнительными условиями: ключевыми суммами, диапазонами значений, словами, которые находятся неподалеку до или после найденной подстроки. При этом разработчики сами комплектуют поставку уже готовыми шаблонами со всеми необходимыми условиями, так что администратору безопасности остается при создании правила только выбрать нужные значения.
Цифровые отпечатки
Еще одной технологией обнаружения утечек конфиденциальной информации является технология так называемых цифровых отпечатков. С ее помощью можно с высокой степенью эффективности контролировать попытки передачи строго определенных документов или их фрагментов. Суть метода заключается в следующем. Сначала создается специальная база «электронных слепков» с указанных администратором безопасности файлов. После этого все отправляемые документы будут проверяться на соответствие этим отпечаткам.
Эту технологию не следует путать с цифровой подписью документов. Цифровая подпись основана на использовании хеширования, она охватывает весь файл целиком. И если в будущем кто-то изменит в нем хотя бы одно слово, то подписи до и после уже не будут совпадать. Поэтому цифровые отпечатки – это не хеши документов, как можно подумать на первый взгляд.
Под цифровым отпечатком в данном случае понимается целый набор характерных элементов документа, по которому его можно с высокой достоверностью определить в будущем. Современные DLP-решения способны детектировать не только целые файлы, но и их фрагменты. При этом можно даже рассчитать степень соответствия. Такие решения позволяют создавать дифференцированные правила, в которых описаны разные действия для разных процентов совпадения.
Важной особенностью цифровых отпечатков является то, что они могут использоваться не только для текстовых, но и для табличных документов, а также для изображений. Это открывает широкое поле для применения рассматриваемой технологии. Например, можно сделать цифровой отпечаток подписи главного бухгалтера, что позволит пресечь отправку всех отсканированных копий документов, им подписанных.
Цифровые метки
Принцип данного метода чрезвычайно прост. На выбранные документы накладываются специальные метки, которые «видны» только клиентским модулям используемого DLP-решения. В зависимости от их наличия система разрешает или запрещает те или иные действия с файлами. Это позволяет не только предотвратить утечку конфиденциальных документов, но и ограничить работу с ними пользователей, что является несомненным преимуществом данной технологии.
К недостаткам данной технологии относится, в первую очередь, ограниченность сферы ее применения. Защитить с ее помощью можно только текстовые документы, причем уже существующие. На вновь создаваемые документы это не распространяется. Частично этот недостаток нивелируется способами автоматического создания меток, например, на основе набора ключевых слов. Однако данный аспект сводит технологию цифровых меток к технологии морфологического анализа, то есть, по сути, к дублированию технологий.
Другим недостатком технологии цифровых меток является легкость ее обхода. Достаточно вручную набрать текст документа в письме (не скопировать через буфер обмена, а именно набрать), и данный способ будет бессилен. Поэтому он хорош только в сочетании с другими методами защиты.
Инструменты противодействия обходу защиты
Все описанные выше технологии основаны на анализе обычного текста. Однако в некоторых случаях злоумышленники могут использовать различные методы обхода системы защиты, основанные на сокрытии этого текста. Самым простым из них является архивирование пересылаемых документов. Для защиты от этого в DLP-решениях обычно реализуется поддержка разных форматов сжатия. В этом случае файлы распаковываются, а их содержимое проверяется обычным образом. Здесь важно отметить только один момент. В DLP-системе должна присутствовать возможность адекватной реакции на архивы, защищенные паролем. При обнаружении таких файлов они могут, например, перемещаться в карантин.
Следующий способ «спрятать» конфиденциальную информацию – транслитерация. Злоумышленник может просто взять текст и с помощью специальной программы, какого-либо онлайн-сервиса или даже вручную переписать его символами латинского алфавита. Для противодействия транслитерации конфиденциальной информации используется очень простой метод – транслитерация заданного семантического ядра. При включении этой функции DLP-система проверяет тексты на наличие как обычно записанных слов, так и их «транслитерационных» аналогов. Причем в некоторых решениях правила преобразования можно задавать вручную.
Еще одним способом обхода DLP-системы является отправка текста в виде картинки (например, скриншот открытого документа). Для противодействия этому методу используются OCR-технологии. То есть система защиты пытается распознать все отправляемые изображения. В случае успеха выделенный текст обрабатывается по обычным правилам.
Выводы
На сегодняшний день в арсеналах разработчиков DLP-систем есть несколько основных методов контентного обнаружения утечек конфиденциальной информации: морфологический и статистический анализы, шаблоны, цифровые отпечатки и метки. Все они отличаются по принципу работы, имеют свои преимущества и недостатки. Так, например, морфологический анализ – универсальная технология, которая может использоваться везде. Правда, при этом она обладает не лучшими показателями по эффективности и ложным срабатываниям.
Шаблоны позволяют с высокой степенью точности обнаруживать попытке передачи стандартизованной информации. Но при этом они бесполезны во всех других случаях. Кроме того, существует вероятность ложных срабатываний системы защиты. Цифровые отпечатки являются очень эффективным средством обнаружения утечек конфиденциальных данных, но они могут использоваться только для контроля пересылки целых существующих документов или изображений, либо их фрагментов. В случае с одиночными фразами или текстом, написанным своим языком, они не помогут.
Таким образом, из всего вышеизложенного можно сделать очень простой вывод. Современные технологии контентного анализа не конкурируют между собой, а дополняют друг друга. Морфологический анализ является основным, базовым способом обнаружения утечек конфиденциальной информации. Благодаря своей универсальности, он может использоваться практически везде. А шаблоны и цифровые отпечатки усиливают защиту определенных групп конфиденциальных данных – стандартизованной информации, определенных документов или изображений, либо их фрагментов. Таким образом, в полноценной DLP-системе должны быть реализованы все три технологии, что позволяет добиться ее максимальной эффективности. При этом нужно понимать, что использование их всех не обязательно, все зависит от конкретных условий. Так, например, если в компании нет стандартизованной конфиденциальной информации, то и использовать шаблоны ей не нужно.
В заключение отметим, что ни один метод контентной фильтрации не является стопроцентной гарантией отсутствия утечек конфиденциальной информации. Они весьма успешно справляются с непреднамеренными действиями сотрудников, когда те просто ошибаются или без злого умысла нарушают служебные инструкции (например, копируют документ на флешку, чтобы поработать дома). С преднамеренными утечками дела обстоят сложнее, поскольку злоумышленники могут попытаться обойти DLP-систему тем или иным способом. Именно поэтому защита конфиденциальной информации должна представлять собой целый комплекс как технических, так и организационных мер, направленных не только на предотвращение утечек, но и на превентивное обнаружение нелояльно настроенных по отношению к компании сотрудников.
Марат Давлетханов
Web-droid редактор
вологість:
тиск:
вітер:
Обзор смартфона Tecno Spark 20 Pro+: рестомод
Обновлённая серия смартфонов Tecno Spark 20 Pro+ состоит из трех моделей. Сегодня расскажем про топовою, которая к тому же, отличается по стилю от младших
MiJia Smart Audio Glasses с воздушной проводимостью звука и автономностью до 24 часов стоят $83
Xiaomi очкиMiJia Smart Audio Glasses получили шесть разных оправ, акумулятор обеспечивающий автономность в сутки и технологию воздушной проводимости звука
Tidal теперь позволяет открывать песни в Spotify, Apple Music и других музыкальных сервисах
музыка обновление сервисНововведение делает обмен музыкой между различными платформами проще и не требует загрузки приложений или регистрации на новых сервисах.