Дополнительные сведения о типах конфиденциальной информации

Выявление и классификация конфиденциальных элементов, которые находятся под контролем организации, является первым шагом в Information Protection дисциплине. Microsoft Purview предоставляет три способа идентификации элементов, чтобы их можно было классифицировать:

  • вручную, по пользователям
  • с помощью автоматического распознавания шаблонов, как и в случае с типами конфиденциальной информации
  • с помощью машинного обучения

Типы конфиденциальной информации (SIT) — это классификаторы на основе шаблонов. Они обнаруживают конфиденциальную информацию, такую как социальное обеспечение, кредитные карта или номера банковских счетов для идентификации конфиденциальных элементов. Полный список всех ИЦТ см. в разделе Определения сущностей типа конфиденциальной информации.

Корпорация Майкрософт предоставляет большое количество предварительно настроенных SIT или вы можете создать собственные.

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Типы конфиденциальной информации используются в

Категории типов конфиденциальной информации

Встроенные типы конфиденциальной информации

Корпорация Майкрософт создала эти SIT, и они по умолчанию отображаются в консоли соответствия требованиям. Эти SIT нельзя изменить, но их можно использовать в качестве шаблонов, скопировав их для создания пользовательских типов конфиденциальной информации. Полный список всех типов sit см. в статье Определения сущностей типов конфиденциальной информации .

Типы конфиденциальной информации именованных сущностей

По умолчанию в консоли соответствия требованиям также отображаются sit именованные сущности. Они определяют имена людей, физические адреса и медицинские условия. Их невозможно изменить или скопировать. Дополнительные сведения см. в статье Сведения об именованных сущностях.

Типы SIT именованных сущностей бывают двух типов:

не упаковано

Эти именованные sit сущности имеют более узкий фокус, например отдельную страну или регион или один класс терминов. Используйте их, если требуется политика защиты от потери данных (DLP) с более узким область обнаружения. См. примеры именованных сущностей SIT.

Комплекте

Объединенные идентификаторы именованных сущностей обнаруживают все возможные совпадения в классе, например Все физические адреса. Используйте их в качестве общих критериев в политиках защиты от потери данных для обнаружения конфиденциальных элементов. См. примеры именованных сущностей SIT.

Пользовательские типы конфиденциальной информации

Если предварительно настроенные типы конфиденциальной информации не соответствуют вашим потребностям, можно создать собственные настраиваемые типы конфиденциальной информации, которые вы полностью определяете, или скопировать один из встроенных и изменить его. Дополнительные сведения см. в разделе

Создайте пользовательский тип конфиденциальной информации в Портал соответствия требованиям Microsoft Purview.

Точное сопоставление данных типов конфиденциальной информации

Все точное совпадение данных (EDM) на основе SIT создаются с нуля. Они используются для обнаружения элементов с точными значениями, которые определяются в базе данных с конфиденциальной информацией. Дополнительные сведения см. в статье Сведения о типах конфиденциальной информации на основе точного сопоставления данных.

Основные части типа конфиденциальной информации

Каждая сущность типа конфиденциальной информации (SIT) состоит из следующих полей:

  • Имя: Указывает, как ссылается тип конфиденциальной информации.
  • Описание: Объяснение того, что ищет тип конфиденциальной информации.
  • Узор: Определяет, что обнаруживает SIT. Он состоит из следующих компонентов: основной элемент, вспомогательные элементы, уровень достоверности и близость.

В следующей таблице описан каждый компонент шаблонов, используемых при определении типов конфиденциальной информации.

Компонент шаблона Описание
Основной элемент Элемент main, который ищет тип конфиденциальной информации. Это может быть регулярное выражение с проверкой контрольной суммы или без него, список ключевое слово, словарь ключевое слово или функция. Каждый из этих типов элементов может быть выбран из списка существующих SIT или может быть определен пользователем с разрешениями администратора. После определения элемента он появляется в списке существующих элементов вместе с встроенными.
Вспомогательный элемент Элемент, выступающий в качестве подтверждающих доказательств. При включении вспомогательные элементы помогают повысить уровень достоверности по отношению к точности обнаруженных совпадений. Например, если основной элемент определен как SSN (состоит из девяти цифр), а ключевое слово номер социального страхования (SSN) используется в качестве вспомогательного элемента при обнаружении в непосредственной близости от SSN, уверенность в том, что SSN обнаруженный номер действительно является номером социального страхования, будет выше, чем если ключевое слово номера социального страхования (SSN) отсутствует.

Вспомогательным элементом может быть регулярное выражение (с проверкой контрольной суммы или без нее), список ключевое слово или словарь ключевое слово.
Уровень вероятности Существует три уровня достоверности в отношении обнаруженных совпадений: высокий, средний и низкий. Уровень достоверности отражает, сколько подтверждающих доказательств обнаружено вместе с основным элементом. Чем больше подтверждающих доказательств содержит обнаруженный элемент, тем выше уверенность в том, что соответствующий элемент содержит конфиденциальную информацию, которую вы ищете. Дополнительные сведения об уровнях достоверности см. в видео, включенном далее в эту статью.
Компонент ранжирования с учетом расположения Указывает, насколько близко вспомогательный элемент к основному элементу с точки зрения количества символов между ними.

Общие сведения о близком расположении

На следующей схеме показано, как работает обнаружение совпадений с точки зрения близости. В этом примере основным элементом является SSN поле, а определение SIT требует, чтобы каждый экземпляр SSN значения был в указанном расположении по крайней мере к одному из следующих элементов:

  • AccountNumber
  • Name
  • DateOfBirth

На схеме мы видим, что проверяемые данные включают три разных экземпляра SSN поля: SSN1, SSN2, SSN3и SSN4.

Схема подтверждающих доказательств и окна близкого взаимодействия.

Чтобы понять, как работает близкое расположение, давайте рассмотрим некоторые примеры критериев обнаружения. Здесь, хотели обнаружить девятизначные номера социального страхования. Критерии обнаружения требуют, чтобы девятизначное регулярное выражение (основной элемент) было найдено в сочетании с подтверждающими доказательствами (среди AccountNumberполей , Nameи DateOfBirth ), которое отображается в пределах 250 символов ( близкое расположение).

Как показано на схеме, только первичные элементы SSN1 и SSN4 соответствуют описанным выше критериям обнаружения. Давайте посмотрим поближе.

  • В случае SSN1DateOfBirth значение находится в пределах указанного окна близости, равного 250 символам, поэтому обнаруживается совпадение.
  • В обоих случаях SSN2 и SSN3ни один из вспомогательных элементов не встречается в пределах 250 символов от первичного элемента, поэтому эти значения не обнаруживаются как совпадение. Однако, когда вы посмотрите на окно близкого взаимодействия для SSN2 на схеме, вы можете спросить: Почему нет совпадения для SSN2? Разве окно близкого SSN2 взаимодействия не распространяется на Name элемент? Это хороший вопрос. Ответ: Не совсем. Хотя окно близкого взаимодействия распространяется на Name значение, оно не включает все значение, поэтому шаблон не совпадает.
  • Наконец, в случае есть два вспомогательных элемента в окне близкого SSN4взаимодействия: и NameDateOfBirth, поэтому этот шаблон также соответствует.

Дополнительные сведения об уровнях доверия см. в этом коротком видео.

Пример типа конфиденциальной информации

Номер внутреннего удостоверения личности для Аргентины (DNI)

Формат

Восемь цифр, разделенных точками.

Шаблон

Восемь цифр:

  • две цифры
  • точка
  • три цифры
  • точка
  • три цифры
Контрольная сумма

Нет

Определение

Политика защиты от потери данных имеет среднюю уверенность в том, что она обнаружила этот тип конфиденциальной информации, если в пределах 250 символов:

  • регулярное выражение Regex_argentina_national_id находит содержимое, которое соответствует шаблону;
  • находится ключевое слово из Keyword_argentina_national_id.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>
Ключевые слова
Keyword_argentina_national_id
  • Argentina National Identity number
  • Удостоверение
  • Удостоверение личности
  • DNI
  • Национальный реестр лиц (NIC)
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Дополнительные сведения об уровнях достоверности

В определении сущности типа конфиденциальной информации уровень достоверности отражает, сколько подтверждающих доказательств обнаружено в дополнение к основному элементу. Чем больше подтверждающих доказательств содержит элемент, тем выше уверенность в том, что соответствующий элемент содержит конфиденциальную информацию, которую вы ищете. Например, совпадения с высоким уровнем достоверности содержат больше подтверждающих доказательств в непосредственной близости к основному элементу, тогда как совпадения с низким уровнем достоверности будут содержать мало подтверждающих доказательств в непосредственной близости.

Высокий уровень достоверности возвращает наименьшее количество ложноположительных результатов, но может привести к большему числу ложноотрицательных результатов. Низкие или средние уровни достоверности возвращают больше ложноположительных результатов, но от нескольких до нуля ложноотрицательных.

  • низкая достоверность. Совпадаемые элементы содержат наименьшее количество ложноотрицательных значений, но больше всего ложноположительных результатов. Низкая достоверность возвращает все совпадения с низкой, средней и высокой достоверностью. Низкий уровень достоверности имеет значение 65.
  • средняя достоверность. Совпадаемые элементы содержат среднее количество ложноположительных и ложноотрицательных результатов. Средняя достоверность возвращает все совпадения средней и высокой достоверности. Средний уровень достоверности имеет значение 75.
  • высокая достоверность. Совпадаемые элементы содержат наименьшее количество ложноположительных результатов, но больше всего ложноотрицательных. Высокая достоверность возвращает только совпадения с высокой достоверностью и имеет значение 85.

Вы должны использовать шаблоны высокого уровня достоверности с низким числом, например от пяти до 10, и шаблоны низкого доверия с более высоким числом, например 20 или более.

Примечание.

Если у вас есть существующие политики или пользовательские типы конфиденциальной информации (SIT), определенные с помощью уровней достоверности на основе чисел (также известных как точность), они будут автоматически сопоставлены с тремя дискретными уровнями достоверности; низкая достоверность, средняя достоверность и высокая достоверность в пользовательском интерфейсе Центра безопасности и соответствия требованиям.

  • Все политики с минимальной точностью или настраиваемые шаблоны SIT с уровнями достоверности от 76 до 100 будут сопоставлены с высокой достоверностью.
  • Все политики с минимальной точностью или пользовательские шаблоны SIT с уровнем достоверности от 66 до 75 будут сопоставлены со средней достоверностью.
  • Все политики с минимальной точностью или настраиваемые шаблоны SIT с уровнями достоверности меньше или равными 65 будут сопоставлены с низкой достоверностью.

Создание пользовательских типов конфиденциальной информации

На портале соответствия требованиям можно выбрать один из нескольких вариантов создания пользовательских типов конфиденциальной информации.

Примечание.

Улучшенные уровни достоверности доступны для немедленного использования в службах защиты от потери данных Microsoft Purview, защиты информации, соответствия требованиям к обмену данными, управления жизненным циклом данных и управления записями. Information Protection теперь поддерживает языки двухбайтового набора символов для:

  • Китайский (упрощенное письмо)
  • Китайский (традиционное письмо)
  • Корейский
  • Японский

Эта поддержка доступна для конфиденциальных типов информации. Дополнительные сведения см. в разделе Сведения о поддержке двойных байтовых наборов символов.

Совет

Для выявления шаблонов, содержащих символы китайского или японского языков и однобайтовые символы, или шаблонов, содержащих элементы китайского/японского и английского языков, определите два варианта ключевого слова или регулярного выражения.

  • Например, для выявления такого ключевого слова, как "机密的document", используйте два варианта ключевого слова: один с пробелом между японским и английским текстом, а другой без пробела между японским и английским текстом. Поэтому в SIT следует добавить ключевые слова "机密的 document" и "机密的document". Аналогично, для выявления фразы "東京オリンピック2020" следует использовать два варианта: "東京オリンピック 2020" и "東京オリンピック2020".

Если в списке ключевых слов или фраз также содержатся слова, отличные от китайского или японского языка(например, только на английском языке), необходимо создать два словаря или ключевое слово списки. Одно для ключевых слов, содержащих китайский/японский/двойные байтовые символы, а другое — для ключевых слов только для английского языка.

  • Например, Если вы хотите создать словарь или список ключевое слово с тремя фразами "Строго конфиденциальный", "機密性が高い" и "机密的документ", необходимо создать два списка ключевое слово.
    1. Строго конфиденциально
    2. 機密性が高い, 机密的документ и 机密的 документ

При создании регулярного выражения с помощью двухбайтового дефиса или двойной байтовой точки убедитесь, что оба символа экранироваться так же, как и дефис или точка в регулярном тексте. Пример регулярного выражения:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Мы рекомендуем использовать сопоставление строк вместо совпадения слов в списке ключевое слово.

Проверка типа конфиденциальной информации

Вы можете протестировать SIT, отправив пример файла. Результаты теста показывают количество совпадений для каждого уровня достоверности. Вы можете проверить встроенные SIT, пользовательские SIT, обучаемые классификаторы и точное соответствие данных.

Тест встроенных и настраиваемых типов конфиденциальной информации

Проверьте точное соответствие данных типу конфиденциальной информации.

Предоставление отзывов о соответствии или не точности соответствия в типах конфиденциальной информации

Количество совпадений, которое имеет SIT, можно просмотреть в разделах Типы конфиденциальной информации и Обозреватель содержимого. Вы также можете оставить отзыв о том, является ли элемент на самом деле совпадением или нет, используя механизм обратной связи Соответствие, а не соответствие , и использовать этот отзыв для настройки SIT. Дополнительные сведения см. в разделе Повышение точности классификатора.

Дополнительные сведения

Сведения о том, как использовать типы конфиденциальной информации для соблюдения правил конфиденциальности данных, см. в статье Развертывание защиты информации для правил конфиденциальности данных с помощью Microsoft 365 (aka.ms/m365dataprivacy).