Avaliar a importância dos recursos

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

Você pode avaliar a importância de cada recurso para o modelo de aprendizado de máquina do Personalizer conduzindo uma avaliação de recurso em seus dados de log históricos. As avaliações de recursos são úteis para:

  • Entenda quais recursos são mais ou menos importantes para o modelo.
  • Faça um brainstorm de recursos extras que podem ser benéficos para a aprendizagem, inspirando-se em quais recursos são atualmente importantes no modelo.
  • Identifique recursos potencialmente sem importância ou não úteis que devem ser considerados para análise ou remoção posteriores.
  • Solucione problemas e erros comuns que podem ocorrer ao projetar recursos e enviá-los para o Personalizador. Por exemplo, usar GUIDs, carimbos de data/hora ou outros recursos que geralmente são esparsos pode ser problemático. Saiba mais sobre como melhorar recursos.

O que é uma avaliação de recursos?

As avaliações de recursos são conduzidas treinando e executando uma cópia da configuração atual do modelo em dados de log coletados historicamente em um período de tempo especificado. Os recursos são ignorados um de cada vez para medir a diferença no desempenho do modelo com e sem cada recurso. Como as avaliações de recursos são realizadas em dados históricos, não há garantia de que esses padrões serão observados em dados futuros. No entanto, essas informações ainda podem ser relevantes para dados futuros se os dados registrados tiverem capturado variabilidade suficiente ou propriedades não estacionárias dos dados. O desempenho do seu modelo atual não é afetado pela execução de uma avaliação de recursos.

Uma pontuação de importância do recurso é uma medida do impacto relativo do recurso na recompensa durante o período de avaliação. As pontuações de importância do recurso são um número entre 0 (menos importante) e 100 (mais importante) e são mostradas na avaliação do recurso. Como a avaliação é executada durante um período de tempo específico, as importâncias do recurso podem mudar à medida que dados adicionais são enviados ao Personalizer e à medida que seus usuários, cenários e dados mudam ao longo do tempo.

Criando uma avaliação de recurso

Para obter pontuações de importância de recurso, você deve criar uma avaliação de recurso durante um período de dados registrados para gerar um relatório contendo as pontuações de importância de recurso. Este relatório pode ser visualizado no portal do Azure. Para criar uma avaliação de recurso:

  1. Ir para o Web site do portal do Azure
  2. Selecione seu recurso Personalizador
  3. Selecione a seção Monitor no painel de navegação lateral
  4. Selecione a guia Recursos
  5. Selecione "Criar relatório" e uma nova tela deve aparecer
  6. Escolha um nome para o seu relatório
  7. Escolha as horas de início e fim para o seu período de avaliação
  8. Selecione "Criar relatório"

Screenshot that shows how to create a Feature Evaluation in your Personalizer resource by clicking on

Screenshot that shows in the creation window and how to fill in the fields for your report including the name, start date, and end date.

Em seguida, o nome do relatório deve aparecer na tabela de relatórios abaixo. Criar uma avaliação de recurso é um processo de longa duração, onde o tempo para a conclusão depende do volume de dados enviados ao Personalizer durante o período de avaliação. Enquanto o relatório está sendo gerado, a coluna Status indicará "Em execução" para sua avaliação e será atualizada para "Aprovado" uma vez concluído. Verifique periodicamente se a sua avaliação terminou.

Você pode executar várias avaliações de recursos durante vários períodos de tempo em que seu recurso do Personalizador tem dados de log. Certifique-se de que o período de retenção de dados é definido suficientemente longo para permitir que você realize avaliações sobre dados mais antigos.

Interpretando pontuações de importância de recursos

Características com uma pontuação de alta importância

As características com maiores escores de importância foram mais influentes para o modelo durante o período de avaliação em comparação com as outras características. Recursos importantes podem fornecer inspiração para projetar recursos adicionais a serem incluídos no modelo. Por exemplo, se você vir que os recursos de contexto "IsWeekend" ou "IsWeekday" têm alta importância para compras de supermercado, pode ser o caso de feriados ou fins de semana prolongados também serem fatores importantes, então você pode considerar adicionar recursos que capturam essas informações.

Características com uma pontuação de importância baixa

Recursos com pontuações de baixa importância são bons candidatos para uma análise mais aprofundada. Nem todos os recursos de pontuação baixa necessariamente são ruins ou não são úteis, pois pontuações baixas podem ocorrer por um ou mais motivos diversos. A lista abaixo pode ajudá-lo a começar a analisar por que seus recursos podem ter pontuações baixas:

  • A característica raramente foi observada nos dados durante o período de avaliação.

    • Se o número de ocorrências desse recurso for baixo em comparação com outros recursos, isso pode indicar que o recurso não estava presente com frequência suficiente para o modelo determinar se ele é valioso ou não.
  • Os valores dos recursos não tinham muita diversidade ou variação.

    • Se o número de valores exclusivos para esse recurso for menor do que você esperaria, isso pode indicar que o recurso não variou muito durante o período de avaliação e não fornecerá informações significativas.
  • Os valores dos recursos eram muito barulhentos (aleatórios), ou muito distintos, e forneciam pouco valor.

    • Verifique o Número de valores exclusivos na sua avaliação de recursos. Se o número de valores exclusivos para esse recurso for maior do que o esperado ou alto em comparação com outros recursos, isso pode indicar que o recurso foi muito barulhento durante o período de avaliação.
  • Há um problema de dados ou formatação.

    • Verifique se os recursos estão formatados e enviados para o Personalizador da maneira esperada.
  • O recurso pode não ser valioso para modelar o aprendizado e o desempenho se a pontuação do recurso for baixa e os motivos acima não se aplicarem.

    • Considere remover o recurso, pois ele não está ajudando seu modelo a maximizar a recompensa média.

A remoção de recursos com pontuações de baixa importância pode ajudar a acelerar o treinamento do modelo, reduzindo a quantidade de dados necessários para aprender. Também pode potencialmente melhorar o desempenho do modelo. No entanto, isso não é garantido e uma análise mais aprofundada pode ser necessária. Saiba mais sobre como criar recursos de contexto e ação.

Problemas comuns e etapas para melhorar os recursos

  • Envio de recursos com alta cardinalidade. Características com alta cardinalidade são aquelas que têm muitos valores distintos que não são suscetíveis de se repetir ao longo de muitos eventos. Por exemplo, informações pessoais específicas de um indivíduo (como nome, número de telefone, número de cartão de crédito, endereço IP) não devem ser usadas com o Personalizador.

  • Enviando IDs de usuário Com um grande número de usuários, é improvável que essas informações sejam relevantes para o Personalizer aprender a maximizar a pontuação média de recompensa. O envio de IDs de usuário (mesmo que não sejam informações pessoais) provavelmente adicionará mais ruído ao modelo e não é recomendado.

  • Os recursos são muito escassos. Os valores são distintos e raramente ocorrem mais do que algumas vezes. Carimbos de data/hora precisos até o segundo podem ser muito escassos. Pode tornar-se mais denso (e, portanto, eficaz) agrupando os horários em "manhã", "meio-dia" ou "tarde", por exemplo.

As informações de localização também normalmente se beneficiam da criação de classificações mais amplas. Por exemplo, uma coordenada latitude-longitude como Lat: 47.67402° N, Long: 122.12154° W é muito precisa e força o modelo a aprender latitude e longitude como dimensões distintas. Quando você está tentando personalizar com base nas informações de localização, isso ajuda a agrupar as informações de localização em setores maiores. Uma maneira fácil de fazer isso é escolher uma precisão de arredondamento apropriada para os números lat-long e combinar latitude e longitude em "áreas", tornando-as uma corda. Por exemplo, uma boa maneira de representar Lat: 47.67402° N, Long: 122.12154° W em regiões de aproximadamente alguns quilômetros de largura seria "localização":"34.3 , 12.1".

  • Expandir conjuntos de recursos com informações extrapoladas Você também pode obter mais recursos pensando em atributos inexplorados que podem ser derivados de informações que você já tem. Por exemplo, em uma personalização de lista de filmes fictícia, é possível que um fim de semana vs dia da semana provoque um comportamento diferente dos usuários? O tempo pode ser expandido para ter um atributo "fim de semana" ou "dia da semana". Os feriados culturais nacionais/regionais chamam a atenção para certos tipos de filmes? Por exemplo, um atributo "Halloween" é útil em lugares onde é relevante. É possível que o tempo chuvoso tenha um impacto significativo na escolha de um filme para muitas pessoas? Com o tempo e o local, um serviço meteorológico pode fornecer essas informações e você pode adicioná-las como um recurso extra.

Próximos passos

Analise o desempenho da política com uma avaliação offline com o Personalizer.