Bewerten von Featurerelevanzen

Artikel
01/19/2024

Wichtig

Ab dem 20. September 2023 können Sie keine neuen Personalisierungsressourcen mehr erstellen. Der Personalisierungsdienst wird am 1. Oktober 2026 eingestellt.

Sie können bewerten, wie wichtig jedes Feature für das Machine Learning-Modell der Personalisierung war, indem Sie eine Featureauswertung für Ihre verlaufsbezogenen Protokolldaten durchführen. Featureauswertungen sind für Folgendes nützlich:

Erfahren Sie, welche Features für das Modell am wichtigsten oder am wenigsten wichtig sind.
Überlegen Sie sich zusätzliche Features, die für das Lernen von Vorteil sein könnten, und lassen Sie sich dabei von den Features inspirieren, die derzeit im Modell wichtig sind.
Identifizieren Sie potenziell unwichtige oder nicht nützliche Features, die ggf. weiter analysiert oder auch entfernt werden sollten.
Behandeln Sie häufige Probleme und Fehler, die beim Entwerfen von Features und beim Senden an die Personalisierung auftreten können. Beispielsweise kann die Verwendung von GUIDs, Zeitstempeln oder anderen Features, die im Allgemeinen sparse sind, problematisch sein. Weitere Informationen zum Verbessern von Features.

Was ist eine Featureauswertung?

Featureauswertungen werden durch Trainieren und Ausführen einer Kopie Ihrer aktuellen Modellkonfiguration für zuvor erfasste Protokolldaten in einem bestimmten Zeitraum durchgeführt. Die Features werden nacheinander ignoriert, um den Unterschied in der Modellleistung mit und ohne die einzelnen Features zu messen. Da die Featureauswertungen für verlaufsbezogene Daten durchgeführt werden, ist nicht sichergestellt, dass diese Muster in zukünftigen Daten beobachtet werden. Diese Erkenntnisse können jedoch weiterhin für zukünftige Daten relevant sein, wenn Ihre protokollierten Daten eine ausreichende Variabilität oder nicht stationäre Eigenschaften Ihrer Daten erfasst haben. Die Leistung Ihres aktuellen Modells wird durch das Ausführen einer Featureauswertung nicht beeinträchtigt.

Eine Featurerelevanzbewertung ist ein Maß für die relative Auswirkung des Features auf die Leistung während des Auswertungszeitraums. Eine Featurerelevanzbewertung ist eine Zahl, die zwischen 0 (am wenigsten wichtig) und 100 (am wichtigsten) liegt und wird in der Featureauswertung angezeigt. Da die Auswertung über einen bestimmten Zeitraum ausgeführt wird, können sich die Featurerelevanzen ändern, wenn zusätzliche Daten an die Personalisierung gesendet werden und sich Ihre Benutzer, Szenarien und Daten im Laufe der Zeit ändern.

Erstellen einer Featureauswertung

Um Bewertungen zur Featurerelevanz zu erhalten, müssen Sie eine Featureauswertung für einen Zeitraum protokollierter Daten erstellen, um einen Bericht mit den Featurerelevanzbewertungen zu generieren. Dieser Bericht kann im Azure-Portal angezeigt werden. So erstellen Sie eine Featureauswertung:

Navigieren Sie zum Azure-Portal.
Wählen Sie Ihre Personalisierungsressource aus.
Wählen Sie im seitlichen Navigationsbereich den Abschnitt Überwachen aus.
Wählen Sie die Registerkarte Features aus.
Wählen Sie „Bericht erstellen“ aus, wonach ein neuer Bildschirm angezeigt werden sollte.
Wählen Sie einen Namen für den Bericht aus.
Wählen Sie Zeiten für Start und Ende für Ihren Auswertungszeitraum aus.
Wählen Sie „Bericht erstellen“ aus.

Screenshot that shows how to create a Feature Evaluation in your Personalizer resource by clicking on

Screenshot that shows in the creation window and how to fill in the fields for your report including the name, start date, and end date.

Als Nächstes sollte ihr Berichtsname in der folgenden Berichtstabelle angezeigt werden. Das Erstellen einer Featureauswertung ist ein zeitintensiver Prozess, bei dem die Zeit bis zum Abschluss von der Datenmenge abhängt, die während des Auswertungszeitraums an die Personalisierung gesendet wird. Während der Bericht generiert wird, wird in der Spalte Status für Ihre Auswertung „Wird ausgeführt“ angezeigt und nach Abschluss auf „Erfolgreich“ aktualisiert. Überprüfen Sie in regelmäßigen Abständen, ob Ihre Auswertung abgeschlossen ist.

Sie können mehrere Funktionsauswertungen über verschiedene Zeiträume hinweg ausführen, in denen Ihre Personalisierungsressource über Protokolldaten verfügt. Stellen Sie sicher, dass Ihre Datenaufbewahrungsdauer so lange festgelegt ist, dass Sie Auswertungen für ältere Daten durchführen können.

Interpretieren von Featurerelevanzbewertungen

Features mit hoher Relevanzbewertung

Features mit einer höheren Relevanzbewertung waren während des Auswertungszeitraums im Vergleich zu den anderen Features ausschlaggebender für das Modell. Relevante Features können als Anregung für die Entwicklung neuer Features dienen, die in das Modell aufgenommen werden sollen. Wenn Sie beispielsweise sehen, dass die Kontextfeatures „IsWeekend“ oder „IsWeekday“ eine hohe Relevanz für den Lebensmitteleinkauf haben, kann es sein, dass auch Feiertage oder lange Wochenenden wichtige Faktoren sein können, sodass Sie ggf. Features hinzufügen möchten, die diese Informationen erfassen.

Features mit niedriger Relevanzbewertung

Features mit niedrigen Relevanzbewertungen eignen sich sehr gut für weiterführende Analysen. Nicht alle Features mit niedrigen Bewertungen sind notwendigerweise schlecht oder unnütz, da niedrige Bewertungen aus verschiedenen Gründen auftreten können. Die folgende Liste kann Ihnen bei den ersten Analyseschritten helfen, durch die Sie herausfinden können, warum Ihre Features möglicherweise niedrige Bewertungen aufweisen:

Das Feature wurde während des Auswertungszeitraums nur selten in den Daten gefunden.
- Wenn die Anzahl der Vorkommen dieses Features im Vergleich zu anderen Features gering ist, kann dies darauf hindeuten, dass das Feature nicht oft genug vorhanden war, damit das Modell dessen Nützlichkeit ermitteln kann.
Die Featurewerte weisen keine große Vielfalt oder Variation auf.
- Wenn die Anzahl der eindeutigen Werte für dieses Feature niedriger ist als erwartet, kann dies darauf hindeuten, dass das Feature während des Auswertungszeitraums nicht stark variiert hat und keine signifikanten Erkenntnisse liefert.
Die Featurewerte waren zu ungenau (zufällig) oder zu unterschiedlich und lieferten wenige Werte.
- Überprüfen Sie die Anzahl eindeutiger Werte in Ihrer Featureauswertung. Wenn die Anzahl eindeutiger Werte für dieses Feature höher als erwartet oder im Vergleich zu anderen Features hoch ist, kann dies darauf hindeuten, dass das Feature während des Auswertungszeitraums zu ungenau (verrauscht) war.
Es liegt ein Daten- oder Formatierungsproblem vor.
- Überprüfen Sie, ob die Features wie erwartet formatiert und an die Personalisierung gesendet werden.
Das Feature ist für das Modelllernen und die Leistung möglicherweise nicht hilfreich, wenn die Featurebewertung niedrig ist und die oben genannten Gründe nicht zutreffen.
- Erwägen Sie, das Feature zu entfernen, da es Ihrem Modell nicht hilft, die durchschnittliche Leistung zu maximieren.

Das Entfernen von Features mit niedrigen Bewertungen kann dazu beitragen, das Modelltraining zu beschleunigen, da so die Menge der zum Lernen erforderlichen Daten reduziert wird. Es kann auch die Leistung des Modells verbessern. Dies ist jedoch nicht garantiert, und möglicherweise sind weitere Analysen erforderlich. Erfahren Sie mehr über das Entwerfen von Kontext- und Aktionsfeatures.

Häufige Probleme und Schritte zur Verbesserung von Features

Features werden mit hoher Kardinalität gesendet. Features mit hoher Kardinalität sind solche, die über viele unterschiedliche Werte verfügen, die sich wahrscheinlich nicht über viele Ereignisse hinweg wiederholen. Personenbezogene Informationen wie Name, Telefonnummer, Kreditkartennummern oder IP-Adressen dürfen nicht mit der Personalisierung verwendet werden.
Benutzer-IDs werden gesendet. Bei einer großen Anzahl von Benutzer*innen ist es unwahrscheinlich, dass diese Informationen für den Lernprozess der Personalisierung relevant sind und die durchschnittliche Relevanzbewertung maximieren. Das Senden von Benutzer-IDs (auch wenn sie keine persönlichen Informationen sind) führt wahrscheinlich zu mehr Rauschen im Modell und wird nicht empfohlen.
Features sind zu spärlich. Werte sind eindeutig und treten selten mehrmals auf.. Präzise, sekundengenaue Zeitstempel können sehr spärlich sein. Die Dichte könnte erhöht (und damit effektiver) werden, indem die Zeiten z. B. in „Morgen“, „Mittag“, „Nachmittag“ usw. gruppiert werden.

Standortinformationen profitieren in der Regel auch von der Erstellung umfassenderer Klassifizierungen. Eine Koordinate mit Breitengrad-Längengrad wie Breitengrad: 47.67402° N, Längengrad: 122.12154° W ist z. B. zu präzise und zwingt das Modell, Breiten- und Längengrade als unterschiedliche Dimensionen zu erlernen. Wenn Sie versuchen, auf der Grundlage von Standortinformationen eine Personalisierung vorzunehmen, hilft es, Standortinformationen in größeren Sektoren zu gruppieren. Eine einfache Möglichkeit dazu besteht darin, eine geeignete Rundungsgenauigkeit für die Breitengrad-Längengrad-Zahlen auszuwählen und Breiten- und Längengrade zu „Bereichen“ zu kombinieren, indem sie zu einer Zeichenfolge zusammengefasst werden. Es wäre z. B. eine gute Möglichkeit, Breitengrad: 47.67402° N, Längengrad: 122,12154° W in Regionen mit einer Breite von einigen Kilometern als "location":"34.3 , 12.1" darzustellen.

Erweitern von Featuresets mit extrapolierten Informationen Sie können auch mehr Features erstellen, indem Sie über nicht erkundete Attribute nachdenken, die aus bereits vorhandenen Informationen abgeleitet werden können. Ist es bei der Personalisierung einer fiktiven Filmliste beispielsweise möglich, dass ein Wochentag gegenüber einem Wochenende unterschiedliches Verhalten bei Benutzern hervorruft? Zeit könnte um ein Attribut „Wochenende“ oder „Wochentag“ erweitert werden. Lenken nationale/regionale kulturelle Feiertage die Aufmerksamkeit auf bestimmte Arten von Filmen? Beispielsweise eignet sich ein Attribut „Halloween“ an Orten, wo dieses relevant ist. Ist es möglich, dass regnerisches Wetter bei vielen Benutzern signifikante Auswirkungen auf die Auswahl eines Films hat? Zusammen mit Zeit und Ort könnte ein Wetterdienst diese Informationen bereitstellen, und Sie können sie als zusätzliches Merkmal hinzufügen.

Nächste Schritte

Analysieren Sie die Richtlinienleistung mit einer Offlineauswertung mit der Personalisierung.