Configurar o comportamento de aprendizagem do Personalizador

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

O modo Aprendiz dá-lhe confiança no serviço Personalizador e nas suas capacidades de aprendizagem automática e fornece a garantia de que o serviço recebe informações que podem ser aprendidas – sem arriscar o tráfego online.

Configurar o modo Aprendiz

  1. Entre no portal do Azure, para seu recurso do Personalizador.

  2. Na página Configuração, na guia Configurações do modelo, selecione Modo de aprendiz e selecione Salvar.

Screenshot of configuring apprentice mode learning behavior in Azure portal

Alterações à aplicação existente

Seu aplicativo existente não deve alterar como ele seleciona atualmente as ações a serem exibidas ou como o aplicativo determina o valor, a recompensa dessa ação. A única alteração no aplicativo pode ser a ordem das ações enviadas para a API de classificação do personalizador. A ação que seu aplicativo exibe atualmente é enviada como a primeira ação na lista de ações. A API de classificação usa essa primeira ação para treinar seu modelo de personalizador.

Configure seu aplicativo para chamar a API de classificação

Para adicionar o Personalizador ao seu aplicativo, você precisa chamar as APIs de Classificação e Recompensa.

  1. Adicione a chamada Rank API após o ponto na lógica do aplicativo existente onde você determina a lista de ações e seus recursos. A primeira ação na lista de ações precisa ser a ação selecionada pela lógica existente.

  2. Configure seu código para exibir a ação associada ao ID de Ação de Recompensa da resposta da API de classificação.

Configure seu aplicativo para chamar a API de recompensa

Nota

As chamadas da API de recompensa não afetam o treinamento no modo Aprendiz. O serviço aprende combinando a lógica atual do seu aplicativo ou as ações padrão. No entanto, a implementação de chamadas de recompensa neste estágio ajuda a garantir uma transição suave para o modo Online mais tarde com uma simples mudança no portal do Azure. Além disso, as recompensas serão registradas, permitindo que você analise o desempenho da lógica atual e o quanto de recompensa está sendo recebida.

  1. Use sua lógica de negócios existente para calcular a recompensa da ação exibida. O valor precisa estar na faixa de 0 a 1. Envie esta recompensa para o Personalizer usando a API de recompensa. O valor da recompensa não é esperado imediatamente e pode ser adiado durante um período de tempo - dependendo da sua lógica de negócio.

  2. Se você não devolver a recompensa dentro do tempo de espera de Recompensa configurado, a recompensa padrão será registrada.

Avaliar o modo Aprendiz

No portal do Azure, na página Monitor do seu recurso Personalizador, analise o desempenho de correspondência.

Screenshot of reviewing evaluation of apprentice mode learning behavior in Azure portal

O modo aprendiz fornece as seguintes métricas de avaliação:

  • Linha de base – recompensa média: recompensas médias do padrão do aplicativo (linha de base).
  • Personalizador – recompensa média: Média do total de recompensas que o Personalizador teria potencialmente alcançado.
  • Taxa de conquista de recompensa em relação aos 1000 eventos mais recentes: Proporção de recompensa de linha de base e recompensa do personalizador – normalizada em relação aos 1000 eventos mais recentes.

Alternar o comportamento para o modo Online

Quando você determina que o Personalizer é treinado com uma média de 75-85% de média móvel, o modelo está pronto para mudar para o modo Online.

No portal do Azure para o seu recurso Personalizador, na página Configuração, no separador Definições do modelo, selecione *Modo online e, em seguida, selecione Guardar.

Você não precisa fazer nenhuma alteração nas chamadas da API de Classificação e Recompensa.

Próximos passos