Configuración del comportamiento de aprendizaje de Personalizer

Importante

A partir del 20 de septiembre de 2023, no podrá crear nuevos recursos de Personalizer. El servicio Personalizer se va a retirar el 1 de octubre de 2026.

El modo de aprendiz le proporciona confianza en el servicio Personalizer y sus capacidades de Machine Learning, y garantiza que el servicio recibe información de la que se puede aprender, sin poner en peligro el tráfico en línea.

Configuración del modo de aprendiz

  1. Inicie sesión en Azure Portal para buscar su recurso de Personalizer.

  2. En la página Configuración, en la pestaña Configuración del modelo, seleccione Modo de aprendiz y, a continuación, seleccione Guardar.

Screenshot of configuring apprentice mode learning behavior in Azure portal

Cambios en la aplicación existente

La aplicación existente no debe cambiar el modo en que actualmente selecciona las acciones que se van a mostrar o cómo la aplicación determina el valor recompensa de esa acción. El único cambio en la aplicación podría ser el orden de las acciones enviadas a Rank API de Personalizer. La acción que se muestra actualmente en la aplicación se envía como la primera acción en la lista de acciones. Rank API usa esta primera acción para entrenar el modelo de Personalizer.

Configuración de la aplicación para llamar a Rank API

Para agregar Personalizer a la aplicación, debe llamar a Rank API y Reward API.

  1. Agregue la llamada a Rank API después del punto de la lógica de aplicación existente en el que determine la lista de acciones y sus características. La primera acción de la lista de acciones debe ser la acción seleccionada por la lógica existente.

  2. Configure el código para mostrar la acción asociada con el id. de la acción de recompensa de Rank API.

Configuración de la aplicación para llamar a Reward API

Nota:

Las llamadas API de recompensa no afectan al entrenamiento mientras se encuentra en el modo de aprendiz. El servicio aprende cotejando la lógica actual de la aplicación o las acciones predeterminadas. Sin embargo, la implementación de llamadas de recompensa en esta fase ayuda a garantizar una transición fluida al modo en línea más adelante con un sencillo modificador en Azure Portal. Además, las recompensas se registran, lo que le permite analizar el rendimiento de la lógica actual y la cantidad de recompensa que se recibe.

  1. Use la lógica de negocios existente para calcular la recompensa de la acción mostrada. El valor debe estar en un intervalo de 0 a 1. Envíe esta recompensa a Personalizer con Reward API. El valor de recompensa no se espera inmediatamente y se puede retrasar cierto tiempo en función de la lógica de negocios.

  2. Si no devuelve la recompensa en el Tiempo de espera de recompensa configurado, se registra la recompensa predeterminada en su lugar.

Evaluación del modo de aprendiz

En Azure Portal, en la página Supervisión del recurso de Personalizer, revise el Rendimiento de la conciliación.

Screenshot of reviewing evaluation of apprentice mode learning behavior in Azure portal

El modo de aprendiz proporciona las siguientes métricas de evaluación:

  • Línea base: promedio de recompensa: promedio de recompensas del valor predeterminado de la aplicación (línea base).
  • Personalizer: promedio de recompensa. Promedio de recompensas totales que Personalizer puede haber alcanzado.
  • Proporción de logros de recompensas en los 1000 eventos más recientes. Proporción de recompensas de línea de base y de Personalizer, normalizados con los últimos 1000 eventos.

Cambio del comportamiento al modo en línea

Cuando determine que Personalizer está entrenado con una media acumulada del 75-85 %, el modelo está listo para cambiar al modo en línea.

En el Azure Portal para el recurso Personalizer, en la página Configuración, en la pestaña Configuración del modelo, seleccione *Modo en línea y luego seleccioneGuardar.

No es necesario realizar ningún cambio en las llamadas a Rank API y Reward API.

Pasos siguientes