了解敏感信息类型

识别和分类组织控制下的敏感项是信息保护规则的第一步。 Microsoft Purview 提供了三种标识项的方法,以便可以将其分类:

  • 手动(按用户)
  • 通过自动模式识别,与敏感信息类型一样
  • 通过 机器学习

敏感信息类型 (SCT) 是基于模式的分类器。 他们检测敏感信息(如社会保障、信用卡或银行帐号)以识别敏感项。有关所有 SCT 的完整列表,请参阅敏感信息类型实体定义

Microsoft 提供大量预配置的 SIT,也可以创建自己的 SIT。

提示

如果你不是 E5 客户,请使用为期 90 天的 Microsoft Purview 解决方案试用版来探索其他 Purview 功能如何帮助组织管理数据安全性和合规性需求。 立即从Microsoft Purview 合规门户试用中心开始。 了解有关 注册和试用条款的详细信息。

敏感信息类型用于

敏感信息类型的类别

内置敏感信息类型

Microsoft 创建了这些 SIT,默认情况下它们会显示在合规性控制台中。 无法编辑这些 SIT,但可以通过复制它们来创建自定义敏感信息类型来将其用作模板。 有关所有 SCT 的完整列表,请参阅 敏感信息类型实体定义

命名实体敏感信息类型

默认情况下,命名实体 SCT 也会显示在符合性控制台中。 它们可检测人员姓名、物理地址以及医疗条款和条件。 无法编辑或复制它们。 有关详细信息,请参阅 了解命名实体

命名实体 SCT 有两种类型:

未捆绑

这些命名实体 SIT 的焦点较窄,例如单个国家或地区或单个术语类。 如果需要数据丢失防护 (DLP) 检测范围更窄的策略,请使用它们。 请参阅 命名实体 SCT 的示例

捆绑

捆绑的命名实体 SCT 可检测类中的所有可能的匹配项,例如 “所有物理地址”。 将它们用作 DLP 策略中用于检测敏感项的广泛条件。 请参阅 命名实体 SCT 的示例

自定义敏感信息类型

如果预配置的敏感信息类型不能满足你的需求,你可以创建完全定义的自定义敏感信息类型,也可以复制其中一种内置敏感信息类型并对其进行修改。 有关详细信息,请参阅

在Microsoft Purview 合规门户创建自定义敏感信息类型

精确数据与敏感信息类型匹配

所有完全匹配 (EDM) 的 SCT 都是从头开始创建的。 可以使用它们来检测具有确切值的项,这些值是在敏感信息数据库中定义的。 有关详细信息,请参阅 了解基于精确数据匹配的敏感信息类型

敏感信息类型的基本部分

SIT) 实体 (敏感信息类型都包含以下字段:

  • 名字: 指示如何引用敏感信息类型。
  • 描述: 说明要查找的敏感信息类型。
  • 模式: 定义 SIT 检测到的内容。 它由以下组件组成:主元素、支持元素、置信度级别和邻近度。

下表描述了定义敏感信息类型中使用的模式的每个组件。

模式组件 说明
主元素 敏感信息类型要查找的main元素。 它可以是具有或不带校验和验证、关键字 (keyword) 列表关键字 (keyword) 字典函数正则表达式。可以从现有 SCT 列表中选择这些类型的元素,也可以由具有管理员权限的用户自定义定义。 定义元素后,它将与内置元素一起显示在现有元素列表中。
支持元素 充当确证证据的元素。 如果包含支持元素,则支持元素有助于提高与检测到的匹配项的准确性相关的置信度。 例如,如果主要元素定义为SSN由九位数字) 组成的 (,并且关键字 (keyword) 社会安全号码 (SSN) 在附近SSN找到时用作支持元素,则检测到的确实为社会安全号码的置信度高于不存在社会安全号码 (SSN) 关键字 (keyword) 时的置信度SSN

支持元素可以是正则表达式 (,无论是否具有校验和验证) 、关键字 (keyword) 列表或关键字 (keyword) 字典。
可信度 检测到的匹配项有三个置信度级别:高、中和低。 置信度级别反映检测到的支持证据量以及主要元素。 检测到的项目包含的支持证据越多,匹配项包含你要查找的敏感信息的置信度就越高。 有关置信度的详细信息,请参阅本文后面的视频。
邻近度 根据支持元素之间的字符数,指定支持元素与主元素的接近程度。

了解邻近感应

下图显示了匹配检测与邻近感应相关的工作原理。 在此示例中,主元素是 SSN 字段,SIT 定义要求值的每个实例 SSN 必须位于至少与以下元素之一的指定邻近范围内:

  • AccountNumber
  • Name
  • DateOfBirth

在关系图中,我们看到要检查的数据包括字段的 SSN 三个不同实例: SSN1SSN2SSN3SSN4

确证证据和邻近度窗口示意图

为了了解邻近感应的工作原理,让我们首先查看一些示例检测条件。 在这里,想要检测九位数的社会安全号码。 检测条件要求, (主要元素) 的 9 位正则表达式与 、 和 DateOfBirth 字段) (AccountNumberName (邻近) 出现 250 个字符内的证据一起找到。

如图所示,仅主要元素 SSN1SSN4 满足上述检测条件。 让我们进一步了解一下。

  • 对于 ,SSN1DateOfBirth该值位于指定的 250 个字符的邻近感应窗口中,因此检测到匹配项。
  • 在 和 SSN3的两种情况下SSN2,都没有支持元素出现在主元素的 250 个字符内,因此这些值不会检测为匹配项。 但是,当你在图表中查看 的 SSN2 邻近度窗口时,你可能会问: 为什么没有匹配 SSN2项?邻近度窗口不 SSN2 扩展到 元素吗 Name 这是一个很好的问题。 答案是: 不完全。 虽然邻近度窗口扩展到Name值,但它不包括整个值,因此模式不匹配。
  • 最后,对于 , SSN4邻近窗口内有两个支持元素,即 NameDateOfBirth,因此此模式也匹配。

在此简短视频中详细了解置信度。

敏感信息类型示例

阿根廷国家/地区身份证 (DNI) 号

格式

八个数字,用点分隔

模式

八个数字:

  • 两位数字
  • 句点
  • 三位数
  • 句点
  • 三位数
校验和

定义

DLP 策略在 250 个字符的邻近范围内检测到此类敏感信息的置信度中等:

  • 正则表达式 Regex_argentina_national_id 找到与该模式匹配的内容。
  • 找到 Keyword_argentina_national_id 中的一个关键字。
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>
关键字
Keyword_argentina_national_id
  • Argentina National Identity number
  • 标识
  • 身份证
  • DNI
  • 国家人员登记处 (NIC)
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

有关置信度的详细信息

在敏感信息类型实体定义中, 置信度 反映了除了主要元素之外,还检测到多少支持证据。 项目包含的支持证据越多,匹配项包含你要查找的敏感信息的置信度就越高。 例如,置信度较高的匹配项包含更多与主要元素非常接近的支持性证据,而置信度较低的匹配项则几乎不包含支持证据。

高置信度返回最少的误报,但可能会导致更多的误报。 低置信度或中等置信度返回更多的误报,但很少到零的误报。

  • 置信度低:匹配项包含的误报最少,但误报最多。 低置信度返回所有低置信度、中等置信度和高置信度匹配项。 低置信度值为 65。
  • 中等置信度:匹配项包含误报和假负的平均数目。 中等置信度返回所有中等和高置信度匹配项。 中等置信度级别的值为 75。
  • 高置信度:匹配项包含的误报最少,但误报最多。 高置信度仅返回高置信度匹配项,值为 85。

应使用计数较低的高置信度模式(例如 5 到 10),使用计数较高的低置信度模式(例如 20 或更多)。

注意

如果现有策略或自定义敏感信息类型 (SCT) 使用基于数字的置信度) 定义, (也称为准确性) ,则它们将自动映射到三个离散置信度级别:跨安全 @ 合规中心 UI 的低置信度、中等置信度和高置信度。

  • 所有准确度最低的策略或置信度在 76 到 100 之间的自定义 SIT 模式都将映射到高置信度。
  • 准确度最低或置信度在 66 到 75 之间的自定义 SIT 模式的所有策略都将映射到中等置信度。
  • 具有最低准确度的策略或置信度小于或等于 65 的自定义 SIT 模式将映射到低置信度。

创建自定义敏感信息类型

可以从多个选项中进行选择,以在合规性门户中创建自定义敏感信息类型。

注意

在 Microsoft Purview 数据丢失防护服务、信息保护、通信合规性、数据生命周期管理和记录管理中,可以立即使用更高的置信度级别。 信息保护现在支持以下对象的双字节字符集语言:

  • 简体中文
  • 繁体中文
  • 韩语
  • 日语

此支持适用于敏感信息类型。 有关详细信息,请参阅 双字节字符集的信息保护支持发行说明

提示

若要检测含有中文/日文字符和单字节字符的模式,或检测含有中文/日文和英文的模式,则需要定义两个变体的关键词或词组。

  • 例如,若要检测像“机密的文件”这样的关键词,则要使用该关键词的两个变体; 一个是在日语和英语文本之间有空格,另一个是在日语和英语文本之间没有空格。 因此,在 SIT 中要添加的关键词应该是“机密的 文档”和“机密的文档”。 同样,若要检测短语 "東京オリンピック2020",则应该使用两个变体;“東京オリンピック 2020”和“東京オリンピック2020”。

除了中文/日语/双字节字符,如果关键字/短语列表还包含非中文/日语单词 (,例如,仅英语) ,则应创建两个字典/关键字 (keyword) 列表。 一个用于包含中文/日语/双字节字符的关键字,另一个用于仅限英语的关键字。

  • 例如,如果要创建包含三个短语“高度机密”、“机器密性が高い”和“机密的文档”的关键字 (keyword) 字典/列表,则应创建两个关键字 (keyword) 列表。
    1. Highly confidential
    2. “機密性が高い”、“机密的document”和“机密的 document”

在使用双字节连字符或双字节句点创建正则表达式时,请确保转义这两个字符,就像转义正则表达式中的连字符或句点一样。 此处有一个示例的 regex 供参考:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

建议在关键字 (keyword) 列表中使用字符串匹配而不是单词匹配。

测试敏感信息类型

可以通过上传示例文件来测试 SIT。 测试结果显示每个置信度级别的匹配项数。 可以测试内置 SCT、自定义 SIT、可训练的分类器和精确数据匹配。

测试内置和自定义敏感信息类型

测试完全数据与敏感信息类型匹配。

在敏感信息类型中提供匹配/非匹配准确度反馈

可以在敏感信息类型和内容资源管理器中查看 SIT 的匹配项数。 还可以提供有关项目是否实际是匹配项的反馈,并使用 匹配不是匹配 反馈机制,并使用该反馈来优化 SCT。 有关详细信息,请参阅 提高分类器准确性

有关详细信息

若要了解如何使用敏感信息类型来遵守数据隐私法规,请参阅 使用 Microsoft 365 (aka.ms/m365dataprivacy) 部署数据隐私法规的信息保护