Mengevaluasi kepentingan fitur

Artikel
01/19/2024

Penting

Mulai tanggal 20 September 2023 Anda tidak akan dapat membuat sumber daya Personalizer baru. Layanan Personalizer dihentikan pada tanggal 1 Oktober 2026.

Anda dapat menilai seberapa penting setiap fitur untuk model pembelajaran mesin Personalizer dengan melakukan evaluasi fitur pada data log historis Anda. Evaluasi fitur berguna untuk:

Pahami fitur mana yang paling atau paling tidak penting untuk model.
Brainstorm fitur tambahan yang mungkin bermanfaat untuk belajar, dengan memperoleh inspirasi dari fitur apa yang saat ini penting dalam model.
Identifikasi fitur yang berpotensi tidak penting atau tidak berguna yang harus dipertimbangkan untuk analisis atau penghapusan lebih lanjut.
Memecahkan masalah umum dan kesalahan yang mungkin terjadi saat merancang fitur dan mengirimkannya ke Personalizer. Misalnya, menggunakan GUID, tanda waktu, atau fitur lain yang umumnya jarang mungkin bermasalah. Pelajari selengkapnya tentang meningkatkan fitur.

Apa itu evaluasi fitur?

Evaluasi fitur dilakukan dengan melatih dan menjalankan salinan konfigurasi model Anda saat ini pada data log yang dikumpulkan secara historis dalam periode waktu tertentu. Fitur diabaikan satu per satu untuk mengukur perbedaan performa model dengan dan tanpa setiap fitur. Karena evaluasi fitur dilakukan pada data historis, tidak ada jaminan bahwa pola-pola ini akan diamati di data mendatang. Namun, wawasan ini mungkin masih relevan dengan data di masa mendatang jika data yang dicatat telah menangkap varianbilitas yang memadai atau properti non-stasioner data Anda. Performa model Anda saat ini tidak terpengaruh dengan menjalankan evaluasi fitur.

Skor kepentingan fitur adalah ukuran dampak relatif fitur pada hadiah selama periode evaluasi. Skor kepentingan fitur adalah angka antara 0 (paling tidak penting) dan 100 (paling penting) dan ditunjukkan dalam evaluasi fitur. Karena evaluasi dijalankan selama periode waktu tertentu, kepentingan fitur dapat berubah karena data tambahan dikirim ke Personalizer dan saat pengguna, skenario, dan perubahan data Anda dari waktu ke waktu.

Membuat evaluasi fitur

Untuk mendapatkan skor kepentingan fitur, Anda harus membuat evaluasi fitur selama periode data yang dicatat untuk menghasilkan laporan yang berisi skor kepentingan fitur. Laporan ini dapat dilihat di portal Azure. Untuk membuat evaluasi fitur:

Buka situs web portal Azure
Pilih sumber daya Personalizer Anda
Pilih bagian Monitor dari panel navigasi samping
Pilih tab Fitur
Pilih "Buat laporan" dan layar baru akan muncul
Pilih nama untuk laporan Anda
Pilih waktu mulai dan berakhir untuk periode evaluasi Anda
Pilih "Buat laporan"

Screenshot that shows how to create a Feature Evaluation in your Personalizer resource by clicking on

Screenshot that shows in the creation window and how to fill in the fields for your report including the name, start date, and end date.

Selanjutnya, nama laporan Anda akan muncul dalam tabel laporan di bawah ini. Membuat evaluasi fitur adalah proses yang berjalan lama, di mana waktu penyelesaian tergantung pada volume data yang dikirim ke Personalizer selama periode evaluasi. Saat laporan sedang dibuat, kolom Status akan menunjukkan "Berjalan" untuk evaluasi Anda, dan akan memperbarui ke "Berhasil" setelah selesai. Periksa kembali secara berkala untuk melihat apakah evaluasi Anda telah selesai.

Anda dapat menjalankan beberapa evaluasi fitur selama berbagai periode waktu sumber daya Personalizer Anda memiliki data log. Pastikan bahwa periode retensi data Anda diatur cukup lama untuk memungkinkan Anda melakukan evaluasi melalui data yang lebih lama.

Menginterpretasikan skor kepentingan fitur

Fitur dengan skor kepentingan tinggi

Fitur dengan skor kepentingan yang lebih tinggi lebih berpengaruh terhadap model selama periode evaluasi dibandingkan dengan fitur lainnya. Fitur penting dapat memberikan inspirasi untuk merancang fitur tambahan yang akan disertakan dalam model. Misalnya, jika Anda melihat fitur konteks "IsWeekend" atau "IsWeekday" memiliki kepentingan tinggi untuk belanja bahan makanan, mungkin saja liburan atau akhir pekan panjang mungkin juga merupakan faktor penting, jadi Anda mungkin ingin mempertimbangkan untuk menambahkan fitur yang menangkap informasi ini.

Fitur dengan skor kepentingan rendah

Fitur dengan skor kepentingan rendah adalah kandidat yang baik untuk analisis lebih lanjut. Tidak semua fitur penilaian rendah selalu buruk atau tidak berguna karena skor rendah dapat terjadi karena satu atau beberapa alasan. Daftar di bawah ini dapat membantu Anda mulai menganalisis mengapa fitur Anda mungkin memiliki skor rendah:

Fitur ini jarang diamati dalam data selama periode evaluasi.
- Jika jumlah kemunculan fitur ini rendah dibandingkan dengan fitur lain, ini mungkin menunjukkan bahwa fitur tidak cukup sering ada bagi model untuk menentukan apakah itu berharga atau tidak.
Nilai fitur tidak memiliki banyak keragaman atau variasi.
- Jika jumlah nilai unik untuk fitur ini lebih rendah dari yang Anda harapkan, ini mungkin menunjukkan bahwa fitur tidak banyak bervariasi selama periode evaluasi dan tidak akan memberikan wawasan yang signifikan.
Nilai fitur terlalu berisik (acak), atau terlalu berbeda, dan memberikan sedikit nilai.
- Periksa Jumlah nilai unik dalam evaluasi fitur Anda. Jika jumlah nilai unik untuk fitur ini lebih tinggi dari yang Anda harapkan, atau tinggi dibandingkan dengan fitur lain, ini dapat menunjukkan bahwa fitur tersebut terlalu berisik selama periode evaluasi.
Ada masalah data atau pemformatan.
- Periksa untuk memastikan fitur diformat dan dikirim ke Personalizer dengan cara yang Anda harapkan.
Fitur ini mungkin tidak berharga untuk pembelajaran model dan performa jika skor fitur rendah dan alasan di atas tidak berlaku.
- Pertimbangkan untuk menghapus fitur karena tidak membantu model Anda memaksimalkan hadiah rata-rata.

Menghapus fitur dengan skor kepentingan rendah dapat membantu mempercepat pelatihan model dengan mengurangi jumlah data yang diperlukan untuk dipelajari. Ini juga dapat berpotensi meningkatkan performa model. Namun, ini tidak dijamin dan analisis lebih lanjut mungkin diperlukan. Pelajari selengkapnya tentang merancang fitur konteks dan tindakan.

Masalah umum dan langkah-langkah untuk meningkatkan fitur

Mengirim fitur dengan kardinalitas tinggi. Fitur dengan kardinalitas tinggi adalah fitur yang memiliki banyak nilai berbeda yang tidak mungkin mengulangi banyak peristiwa. Misalnya, informasi pribadi khusus untuk satu individu (seperti nama, nomor telepon, nomor kartu kredit, alamat IP) tidak boleh digunakan dengan Personalizer.
Mengirim ID pengguna Dengan sejumlah besar pengguna, tidak mungkin informasi ini relevan dengan pembelajaran Personalizer untuk memaksimalkan skor hadiah rata-rata. Mengirim ID pengguna (bahkan jika bukan informasi pribadi) kemungkinan akan menambahkan lebih banyak kebisingan ke model dan tidak disarankan.
Fitur terlalu jarang. Nilai berbeda dan jarang terjadi lebih dari beberapa kali. Tanda waktu yang tepat hingga yang kedua bisa sangat jarang. Ini dapat dibuat lebih padat (dan karena itu, efektif) dengan mengelompokkan waktu ke "pagi", "tengah hari" atau "sore", misalnya.

Informasi lokasi juga biasanya mendapat manfaat dari membuat klasifikasi yang lebih luas. Misalnya, koordinat garis bujur lintang seperti Lat: 47.67402° N, Long: 122.12154° W terlalu presisi dan memaksa model untuk mempelajari garis lintang dan bujur sebagai dimensi yang berbeda. Saat Anda mencoba mempersonalisasi berdasarkan informasi lokasi, ini membantu mengelompokkan informasi lokasi di sektor yang lebih besar. Cara mudah untuk melakukannya adalah memilih presisi pembulatan yang sesuai untuk angka lat-long, dan menggabungkan garis lintang dan bujur menjadi "area" dengan menjadikannya satu string. Misalnya, cara yang baik untuk mewakili Lat: 47.67402° N, Long: 122.12154° W di wilayah sekitar beberapa kilometer lebarnya adalah "location":"34.3 , 12.1".

Perluas set fitur dengan informasi ekstrapolasi Anda juga bisa mendapatkan lebih banyak fitur dengan memikirkan atribut yang tidak dijelajahi yang dapat berasal dari informasi yang sudah Anda miliki. Misalnya, dalam personalisasi daftar film fiktif, apakah mungkin akhir pekan vs hari kerja memunculkan perilaku yang berbeda dari pengguna? Waktu dapat diperluas untuk memiliki atribut "weekend" atau "weekday". Apakah liburan budaya nasional/regional mendorong perhatian ke jenis film tertentu? Misalnya, atribut "Halloween" berguna di tempat-tempat yang relevan. Apakah mungkin cuaca hujan berdampak signifikan pada pilihan film bagi banyak orang? Dengan waktu dan tempat, layanan cuaca dapat memberikan informasi itu dan Anda dapat menambahkannya sebagai fitur tambahan.

Langkah berikutnya

Analisis performa kebijakan dengan evaluasi offline dengan Personalizer.