Aprenda sobre os tipos de informações confidenciais

Identificar e classificar itens confidenciais que estão sob o controle da sua organização é a primeira etapa na disciplina Proteção de Informações. O Microsoft Purview fornece três maneiras de identificar itens para que eles possam ser classificados:

  • manualmente, por usuários
  • por meio do reconhecimento automatizado de padrões, como acontece com tipos de informações confidenciais
  • por meio do machine learning

SITs (tipos de informações confidenciais) são classificadores baseados em padrão. Eles detectam informações confidenciais como segurança social, cartão de crédito ou números de conta bancária para identificar itens confidenciais, consulte Definições de entidade de tipo de informação confidencial para obter uma lista completa de todos os SITs.

A Microsoft fornece um grande número de SITs pré-configurados ou você pode criar seus próprios.

Dica

Se você não for um cliente E5, use a avaliação de soluções do Microsoft Purview de 90 dias para explorar como recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações portal de conformidade do Microsoft Purview. Saiba mais sobre os termos de inscrição e avaliação.

Tipos de informações confidenciais são usados em

Categorias de tipos de informações confidenciais

Criado em tipos de informações confidenciais

A Microsoft criou esses SITs e eles aparecem no console de conformidade por padrão. Esses SITs não podem ser editados, mas você pode usá-los como modelos copiando-os para criar tipos de informações confidenciais personalizados. Consulte Definições de entidade de tipo de informação confidencial para uma lista completa de todos os SITs.

Tipos de informações confidenciais de entidade nomeada

SITs de entidade nomeada também aparecem no console de conformidade por padrão. Eles detectam nomes de pessoas, endereços físicos e termos e condições médicas. Eles não podem ser editados ou copiados. Para obter mais informações, consulte Saiba mais sobre entidades nomeadas.

SITs de entidade nomeadas vêm em dois tipos:

un-bundled

Esses SITs de entidade nomeada têm um foco mais estreito, como um único país ou região ou uma única classe de termos. Use-os quando precisar de uma política de DLP (prevenção contra perda de dados) com um escopo de detecção mais estreito. Confira Exemplos de SITs de entidade nomeada.

Empacotado

SiTs de entidade nomeada empacotados detectam todas as correspondências possíveis em uma classe, como Todos os endereços físicos. Use-os como critérios amplos em suas políticas DLP para detectar itens confidenciais. Confira Exemplos de SITs de entidade nomeada.

Tipos de informações confidenciais personalizadas

Se os tipos de informações confidenciais pré-configurados não atenderem às suas necessidades, você poderá criar seus próprios tipos de informações confidenciais personalizados que você definir totalmente ou copiar um dos internos e modificá-los. Para obter mais informações, confira

Crie um tipo de informação confidencial personalizado no portal de conformidade do Microsoft Purview.

Os dados exatos correspondem a tipos de informações confidenciais

Todos os SITs baseados em EDM (correspondência de dados exatos) são criados do zero. Você os usa para detectar itens que têm valores exatos, que você define em um banco de dados de informações confidenciais. Para obter mais informações, consulte Saiba mais sobre tipos de informações confidenciais baseados em correspondência de dados exatos.

Partes fundamentais de um tipo de informação confidencial

Cada entidade SIT (tipo de informação confidencial) consiste nos seguintes campos:

  • Nome: Indica como o tipo de informação confidencial é referido.
  • Descrição: Explicação do que o tipo de informação confidencial está procurando.
  • Padrão: Define o que um SIT detecta. Ele consiste nos seguintes componentes: elemento primário, elementos de suporte, nível de confiança e proximidade.

A tabela a seguir descreve cada componente dos padrões usados na definição de tipos de informações confidenciais.

Componente Padrão Descrição
Elemento primário O elemento main que o tipo de informações confidenciais está procurando. Pode ser uma expressão regular com ou sem uma validação de soma de verificação, uma lista de palavra-chave, um dicionário palavra-chave ou uma função. Cada um desses tipos de elementos pode ser selecionado na lista de SITs existentes ou pode ser definido sob medida por um usuário com permissões de administrador. Depois que um elemento é definido, ele aparece na lista de elementos existentes, juntamente com aqueles que vêm internos.
Elemento de suporte Um elemento que atua como evidência corroborativa. Quando incluídos, os elementos de suporte ajudam a aumentar o nível de confiança em relação à precisão das correspondências detectadas. Por exemplo, se o elemento primário for definido como SSN (composto por nove dígitos) e o palavra-chave Número de Segurança Social (SSN) for usado como um elemento de suporte quando encontrado próximo a SSN, a confiança de que o SSN detectado é realmente um número da Previdência Social é maior do que se o número de segurança social (SSN) palavra-chave não estiver presente.

Um elemento de suporte pode ser uma expressão regular (com ou sem uma validação de verificação), uma lista de palavra-chave ou um dicionário palavra-chave.
Nível de confiança Há três níveis de confiança em relação às correspondências detectadas: alta, média e baixa. O nível de confiança reflete a quantidade de evidências de suporte detectadas junto com o elemento primário. Quanto mais evidências de suporte um item detectado contiver, maior será a confiança de que um item correspondente contém as informações confidenciais que você está procurando. Para obter mais informações sobre os níveis de confiança, consulte o vídeo incluído posteriormente neste artigo.
Proximidade Especifica o quão próximo um elemento de suporte é de um elemento primário, em termos do número de caracteres entre eles.

Entender a proximidade

O diagrama a seguir mostra como a detecção de correspondência funciona em relação à proximidade. Neste exemplo, o elemento primário é o SSN campo e a definição SIT exige que cada instância de um SSN valor deve estar dentro de uma proximidade especificada com pelo menos um dos seguintes elementos:

  • AccountNumber
  • Name
  • DateOfBirth

No diagrama, vemos que os dados que estão sendo verificados incluem três instâncias diferentes do SSN campo: SSN1, SSN2, , SSN3e SSN4.

Diagrama de evidência corroborativa e janela de proximidade.

Para entender como a proximidade funciona, vamos começar examinando alguns critérios de detecção de exemplo. Aqui, queria detectar números de segurança social de nove dígitos. Os critérios de detecção exigem que uma expressão regular de nove dígitos (elemento primário) seja encontrada em conjunto com evidências de suporte (entre os AccountNumbercampos , Namee DateOfBirth ) que aparecem dentro de 250 caracteres (a proximidade).

Conforme ilustrado no diagrama, apenas os elementos primários e SSN4 atendem aos critérios SSN1 de detecção descritos. Vamos dar uma olhada mais de perto.

  • No caso de SSN1, o DateOfBirth valor está dentro da janela de proximidade especificada de 250 caracteres, portanto, uma correspondência é detectada.
  • Em ambos os casos de SSN2 e SSN3, nenhum dos elementos de suporte ocorre dentro de 250 caracteres do elemento primário, de modo que esses valores não sejam detectados como uma correspondência. No entanto, ao olhar para a janela de proximidade para SSN2 no diagrama, você pode perguntar: Por que não há uma correspondência para SSN2? A janela de proximidade não SSN2 se estende ao Name elemento? Essa é uma boa pergunta. A resposta é: não é bem assim. Embora a janela de proximidade se estenda até o Name valor, ela não inclui todo o valor, portanto, o padrão não corresponde.
  • Por fim, no caso de SSN4, há dois elementos de suporte dentro da janela de proximidade, tanto quanto DateOfBirthName , portanto, esse padrão corresponde também.

Saiba mais sobre os níveis de confiança neste vídeo curto.

Tipo de informações confidenciais de exemplo

Número de identidade nacional da Argentina (DNI)

Formatar

Oito dígitos separados por pontos

Padrão

Oito dígitos:

  • dois dígitos
  • um ponto
  • três dígitos
  • um ponto
  • três dígitos
Soma de verificação

Não

Definição

Uma política DLP tem confiança média de que detectou esse tipo de informação confidencial se, dentro de uma proximidade de 250 caracteres:

  • A expressão regular Regex_argentina_national_id encontra conteúdo que corresponda ao padrão.
  • Um palavra-chave de Keyword_argentina_national_id é encontrado.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>
Palavras-chave
Keyword_argentina_national_id
  • Número de Identidade Nacional da Argentina
  • Identidade
  • Carteira de Identidade Nacional de Identificação
  • DNI
  • Registro Nacional de Pessoas (NIC)
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Mais sobre níveis de confiança

Em uma definição de entidade de tipo de informação confidencial, o nível de confiança reflete a quantidade de evidências de suporte detectadas além do elemento primário. Quanto mais evidências de suporte um item contiver, maior será a confiança de que um item correspondente contém as informações confidenciais que você está procurando. Por exemplo, as correspondências com um alto nível de confiança contêm mais evidências de suporte próximas ao elemento primário, enquanto as correspondências com um nível de baixa confiança conteriam pouca ou nenhuma evidência de suporte nas proximidades.

Um alto nível de confiança retorna o menor número de falsos positivos, mas pode resultar em mais falsos negativos. Níveis de confiança baixos ou médios retornam mais falsos positivos, mas poucos a zero falsos negativos.

  • baixa confiança: os itens correspondentes contêm o menor número de falsos negativos, mas os mais falsos positivos. A baixa confiança retorna todas as correspondências de baixa, média e alta confiança. O nível de confiança baixo tem um valor de 65.
  • confiança média: os itens correspondentes contêm um número médio de falsos positivos e falsos negativos. A confiança média retorna todas as correspondências de média e alta confiança. O nível de confiança médio tem um valor de 75.
  • alta confiança: os itens correspondentes contêm o menor número de falsos positivos, mas os negativos mais falsos. A alta confiança só retorna partidas de alta confiança e tem um valor de 85.

Você deve usar padrões de alto nível de confiança com baixas contagens, digamos cinco a dez, e padrões de baixa confiança com contagens mais altas, digamos 20 ou mais.

Observação

Se você tiver políticas existentes ou SITs (tipos de informações confidenciais personalizados) definidos usando níveis de confiança baseados em número (também conhecidos como precisão), eles serão mapeados automaticamente para os três níveis de confiança discretos; baixa confiança, confiança média e alta confiança em toda a interface do usuário do Security @ Compliance Center.

  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança entre 76 e 100 serão mapeadas para alta confiança.
  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança entre 66 e 75 serão mapeadas para confiança média.
  • Todas as políticas com precisão mínima ou padrões SIT personalizados com níveis de confiança menores ou iguais a 65 serão mapeadas para baixa confiança.

Criando tipos de informações confidenciais personalizadas

Você pode escolher entre várias opções para criar tipos de informações confidenciais personalizados no portal de conformidade.

Observação

Níveis de confiança aprimorados estão disponíveis para uso imediato nos serviços de prevenção contra perda de dados do Microsoft Purview, proteção de informações, Conformidade de Comunicação, gerenciamento de ciclo de vida de dados e gerenciamento de registros. Proteção de Informações agora dá suporte a idiomas de conjunto de caracteres de bytes duplos para:

  • Chinês (simplificado)
  • Chinês (tradicional)
  • Coreano
  • Japonês

Este suporte está disponível para tipos de informações confidenciais. Para obter mais informações, consulte Suporte à proteção de informações para notas de versão de conjuntos de caracteres de bytes duplos.

Dica

Para detectar padrões que contêm caracteres chineses/japoneses e caracteres de byte único ou para detectar padrões que contenham chinês/japonês e inglês, defina duas variantes da palavra-chave ou regex.

  • Por exemplo, para detectar uma palavra-chave como "机的document", use duas variantes da palavra-chave; um com um espaço entre o texto japonês e o inglês e outro sem um espaço entre o texto japonês e o inglês. Portanto, as palavras-chave a serem adicionadas no SIT devem ser "机密的 document" e "机密的document". Da mesma forma, para detectar uma frase "東京オリンピック2020", duas variantes devem ser usadas; "東京オリンピック 2020" e "東京オリンピック2020".

Junto com caracteres de bytes chinês/japonês/duplo, se a lista de palavras-chave/frases também contiver palavras não chinesas/japonesas também (por exemplo, somente inglês), você deverá criar duas listas de dicionários/palavra-chave. Uma para palavras-chave que contêm caracteres de bytes chinês/japonês/duplo e outra para palavras-chave somente em inglês.

  • Por exemplo, se você quiser criar um dicionário/lista palavra-chave com três frases "Altamente confidencial", "機密性が高い" e "机密的document", você deve criar duas palavra-chave listas.
    1. Altamente confidencial
    2. 機密性が高い, documento机密的 e documento机密的

Ao criar um regex usando um hifen de byte duplo ou um período de bytes duplo, certifique-se de escapar de ambos os caracteres como você escaparia de um hífen ou período em um regex. Aqui está um exemplo de regex para referência:

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Recomendamos usar correspondência de cadeia de caracteres em vez de correspondência de palavras em uma lista de palavra-chave.

Testar tipo de informações confidenciais

Você pode testar o SIT carregando um arquivo de exemplo. Os resultados do teste mostram o número de correspondências para cada nível de confiança. Você pode testar SITs internos, SITs personalizados, classificadores treináveis e correspondência de dados exatos.

Testar o tipo de informações confidenciais internas e personalizadas

Testar dados exatos correspondem ao tipo de informações confidenciais.

Fornecer comentários de correspondência/não de precisão de correspondência em tipos de informações confidenciais

Você pode exibir o número de correspondências que um SIT tem nos tipos de informações confidenciais e no gerenciador de conteúdo. Você também pode fornecer comentários sobre se um item é realmente uma correspondência ou não usando o mecanismo de comentários Match, Not a Match e usar esse comentário para ajustar seus SITs. Para obter mais informações, consulte Aumentar a precisão do classificador.

Para obter mais informações

Para saber como usar tipos de informações confidenciais para cumprir as regulamentações de privacidade de dados, confira Implantar proteção de informações para regulamentos de privacidade de dados com o Microsoft 365 (aka.ms/m365dataprivacy).