Personalizer 학습 동작 구성

Important

2023년 9월 20일부터 새로운 Personalizer 리소스를 만들 수 없습니다. Personalizer 서비스는 2026년 10월 1일에 사용 중지됩니다.

실습생 모드를 통해 Personalizer 서비스 및 기계 학습 기능에 대한 신뢰와 확신을 가질 수 있으며, 서비스가 온라인 트래픽의 위험 없이 학습 가능한 정보가 전송되는 것을 확인할 수 있습니다.

실습생 모드 구성

  1. Personalizer 리소스를 위해 Azure Portal에 로그인합니다.

  2. 설정 페이지의 모델 설정 탭에서 실습생 모드를 선택한 다음 저장을 선택합니다.

Screenshot of configuring apprentice mode learning behavior in Azure portal

기존 애플리케이션 변경

기존 애플리케이션이 현재 표시할 작업을 선택하는 방식이나 애플리케이션이 해당 작업의 보상 값을 결정하는 방식을 변경해서는 안 됩니다. 애플리케이션에 대해 변경할 수 있는 유일한 사항은 Personalizer 순위 API로 전송되는 작업 순서일 수 있습니다. 애플리케이션에 현재 표시된 작업이 작업 목록에서 첫 번째 작업으로 전송됩니다. 순위 API는 이 첫 번째 작업을 사용하여 Personalizer 모델을 교육합니다.

순위 API를 호출하도록 애플리케이션 구성

애플리케이션에 Personalizer를 추가하려면 순위 API 및 보상 API를 호출해야 합니다.

  1. 작업 및 기능 목록을 결정하는 기존 애플리케이션 논리의 포인트 뒤에 순위 API 호출을 추가합니다. 작업 목록의 첫 번째 작업은 기존 논리에서 선택된 작업이어야 합니다.

  2. 순위 API 응답의 보상 작업 ID와 관련된 작업을 표시하도록 코드를 구성합니다.

보상 API를 호출하도록 애플리케이션 구성

참고 항목

보상 API 호출은 견습 모드에서 학습에 영향을 미치지 않습니다. 서비스는 애플리케이션의 현재 논리 또는 기본 작업을 일치시켜 학습합니다. 그러나 이 단계에서 보상 호출을 구현하면 Azure Portal에서 간단한 전환을 통해 나중에 온라인 모드로 원활하게 전환할 수 있습니다. 또한 보상이 기록되므로 현재 논리가 얼마나 잘 수행되고 있고 얼마나 많은 보상을 받고 있는지 분석할 수 있습니다.

  1. 기존 비즈니스 논리를 사용하여 표시된 작업의 보상을 계산합니다. 값은 0에서 1 사이의 범위에 있어야 합니다. 보상 API를 사용하여 Personalizer에 이 보상을 보냅니다. 보상 값은 즉시 예상되지 않으며 비즈니스 논리에 따라 일정 시간 동안 지연될 수 있습니다.

  2. 구성된 보상 대기 시간 내에 보상을 반환하지 않으면 기본 보상이 대신 기록됩니다.

실습생 모드 평가

Azure Portal의 Personalizer 리소스에 대한 모니터 페이지에서 일치하는 성능을 검토합니다.

Screenshot of reviewing evaluation of apprentice mode learning behavior in Azure portal

실습생 모드는 다음과 같은 평가 메트릭을 제공합니다.

  • 기준 – 평균 보상: 애플리케이션 기본값(기준)의 평균 보상입니다.
  • Personalizer – 평균 보상: Personalizer가 잠재적으로 도달할 수 있는 총 보상의 평균입니다.
  • 가장 최근의 1,000개 이벤트에서 보상 업적 비율: 최근 1000개의 이벤트에 대해 정규화된 기준 및 Personalizer 보상 비율입니다.

온라인 모드로 동작 전환

Personalizer가 평균 75~85%의 롤링 평균으로 학습되었다고 판단되면 모델이 온라인 모드로 전환할 준비가 된 것입니다.

Personalizer 리소스에 대한 Azure 포털의 설정 페이지의 모델 설정 탭에서 *온라인 모드를 선택한 다음 저장을 선택합니다.

순위 API 및 보상 API 호출을 변경할 필요는 없습니다.

다음 단계