你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

配置个性化体验创建服务学习行为

重要

从 2023 年 9 月 20 日开始,将无法创建新的个性化体验创建服务资源。 个性化体验创建服务将于 2026 年 10 月 1 日停用。

学徒模式为你提供了个性化体验创建服务及其机器学习功能的可信度和置信度,并确保在不造成在线流量风险的情况下向服务发送可从其获知的信息。

配置学徒模式

  1. 登录到 Azure 门户,以获取个性化体验创建服务资源。

  2. 在“设置”页上的“模型设置”选项卡上,选择“学徒模式”,然后选择“保存”。

Screenshot of configuring apprentice mode learning behavior in Azure portal

对现有应用程序的更改

现有应用程序不应更改当前选择要显示的操作的方式,或应用程序确定该操作的奖励值的方式。 应用程序的唯一更改可能是发送到个性化体验创建服务排名 API 的操作的顺序。 应用程序当前显示的操作将作为操作列表中的第一个操作发送。 排名 API 使用第一个操作训练个性化体验创建服务模型。

配置应用程序以调用排名 API

为了将个性化体验创建服务添加到应用程序,需要调用排名和奖励 API。

  1. 在确定操作列表及其功能的现有应用程序逻辑中的点后添加排名 API 调用。 操作列表中的第一个操作必须是现有逻辑选择的操作。

  2. 配置代码以显示与排名 API 响应的奖励操作 ID 相关联的操作。

配置应用程序以调用奖励 API

注意

在学徒模式下,奖励 API 调用不会影响训练。 该服务通过匹配应用程序的当前逻辑或默认操作来学习。 但是,在此阶段实现奖励调用有助于确保稍后在 Azure 门户中通过进行简单切换来顺利过渡到联机模式。 此外还将记录奖励,让你能够分析当前逻辑的性能以及获得的奖励量。

  1. 使用现有业务逻辑计算所显示操作的奖励。 此值必须介于 0 到 1 之间。 使用奖励 API 向个性化体验创建服务发送此奖励。 奖励值不应立即出现,可以在一段时间内延迟,具体取决于你的业务逻辑。

  2. 如果在配置的奖励等待时间内未返回奖励,则将改为记录默认奖励。

评估学徒模式

在 Azure 门户中,在个性化体验创建服务资源的“监视”页上,查看“匹配性能”。

Screenshot of reviewing evaluation of apprentice mode learning behavior in Azure portal

学徒模式提供以下评估指标:

  • 基线 - 平均奖励:应用程序默认(基线)的平均奖励。
  • 个性化体验创建服务 - 平均奖励:个性化体验创建服务可能已达到的总奖励的平均奖励。
  • 最近 1000 个事件的奖励成就比:基线和个性化体验创建服务奖励的比率 - 在最近 1000 个事件中进行规范化。

将行为切换到联机模式

确定个性化体验创建服务已使用 75-85% 移动平均的平均值训练时,该模型已准备好切换到联机模式。

在个性化体验创建服务资源的 Azure 门户中,在“设置”页面上,在“模型设置”选项卡上,选择*“在线模式”,然后选择“保存”。

不需要对排名和奖励 API 调用进行任何更改。

后续步骤