Snabbstart: Skapa en kompetensuppsättning i Azure-portalen

Artikel
02/22/2024

I den här snabbstarten får du lära dig hur en kompetensuppsättning i Azure AI Search lägger till optisk teckenigenkänning (OCR), bildanalys, språkidentifiering, textöversättning och entitetsigenkänning för att generera textsökningsbart innehåll i ett sökindex.

Du kan köra guiden Importera data i Azure-portalen för att tillämpa kunskaper som skapar och transformerar textinnehåll under indexeringen. Indata är dina rådata, vanligtvis blobar i Azure Storage. Utdata är ett sökbart index som innehåller AI-genererad bildtext, bildtext och entiteter. Genererat innehåll kan efterfrågas i portalen med hjälp av Sökutforskaren.

För att förbereda skapar du några resurser och laddar upp exempelfiler innan du kör guiden.

Förutsättningar

Innan du börjar måste du ha följande förutsättningar på plats:

Ett Azure-konto med en aktiv prenumeration. Skapa ett konto utan kostnad.
Azure AI Search. Skapa en tjänst eller hitta en befintlig tjänst. Du kan använda en kostnadsfri tjänst för den här snabbstarten.
Azure Storage-konto med Blob Storage.

Kommentar

Den här snabbstarten använder Azure AI-tjänster för AI-transformeringar. Eftersom arbetsbelastningen är så liten används Azure AI-tjänster i bakgrunden för kostnadsfri bearbetning för upp till 20 transaktioner. Du kan slutföra den här övningen utan att behöva skapa en Azure AI-resurs med flera tjänster.

Konfigurera dina data

I följande steg konfigurerar du en blobcontainer i Azure Storage för att lagra heterogena innehållsfiler.

Ladda ned exempeldata som består av en liten filuppsättning med olika typer av data.
Logga in på Azure Portal med ditt Azure-konto.
Skapa ett Azure Storage-konto eller hitta ett befintligt konto.
- Välj samma region som Azure AI Search för att undvika bandbreddsavgifter.
- Välj StorageV2 (generell användning V2).
Öppna din Azure Storage-sida i Azure-portalen och skapa en container. Du kan använda standardåtkomstnivån.
I Container väljer du Ladda upp för att ladda upp exempelfilerna. Observera att du har en mängd olika innehållstyper, inklusive bilder och programfiler som inte kan sökas i fulltext i sina interna format.

Nu är du redo att gå vidare med guiden Importera data.

Kör guiden Importera data

Logga in på Azure Portal med ditt Azure-konto.
Leta reda på din söktjänst och på sidan Översikt väljer du Importera data i kommandofältet för att skapa sökbart innehåll i fyra steg.

Steg 1: Skapa en datakälla

I Anslut till dina data väljer du Azure Blob Storage.
Välj en befintlig anslutning till lagringskontot och välj den container som du skapade. Namnge datakällan och lämna standardvärdena för resten av inställningarna.

Fortsätt till nästa sida.

Om du får "Fel vid identifiering av indexschema från datakälla" kan indexeraren som driver guiden inte ansluta till datakällan. Datakällan har förmodligen säkerhetsskydd. Prova följande lösningar och kör sedan guiden igen.

Säkerhetsfunktion	Lösning
Resursen kräver Azure-roller eller dess åtkomstnycklar är inaktiverade	Anslut som en betrodd tjänst eller ansluta med hjälp av en hanterad identitet
Resursen finns bakom en IP-brandvägg	Skapa en regel för inkommande trafik för Search och för Azure-portalen
Resursen kräver en privat slutpunktsanslutning	Anslut över en privat slutpunkt

Steg 2: Lägga till kognitiva kunskaper

Konfigurera sedan AI-berikning för att anropa OCR, bildanalys och bearbetning av naturligt språk.

I den här snabbstarten använder vi resursen Kostnadsfria Azure AI-tjänster. Exempeldata består av 14 filer, så den kostnadsfria tilldelningen av 20 transaktioner i Azure AI-tjänster räcker för den här snabbstarten.
Expandera Lägg till berikanden och gör sex val.

Aktivera OCR för att lägga till kunskaper om bildanalys på guidesidan.

Välj entitetsigenkänning (personer, organisationer, platser) och bildanalyskunskaper (taggar, bildtext).

Fortsätt till nästa sida.

Steg 3: Konfigurera indexet

Ett index innehåller ditt sökbara innehåll och guiden Importera data kan vanligtvis skapa schemat genom att sampling av datakällan. I det här steget granskar du det genererade schemat och kan eventuellt ändra eventuella inställningar.

I den här snabbstarten passar guidens standardinställningar bra:

Standardfält baseras på metadataegenskaper för befintliga blobar, plus de nya fälten för berikningsutdata (till exempel people, organizations, locations). Datatyper härleds från metadata och genom datasampling.
Standarddokumentnyckeln är metadata_storage_path (markerad eftersom fältet innehåller unika värden).
Standardattribut är Hämtningsbara och sökbara. Sökbart tillåter fulltextsökning i ett fält. Hämtningsbar innebär att fältvärden kan returneras i resultat. Guiden förutsätter att du vill att dessa fält ska vara hämtningsbara och sökbara, eftersom du har skapat dem via en kompetensuppsättning. Välj Filterbar om du vill använda fält i ett filteruttryck.

Att markera ett fält som Hämtningsbart betyder inte att fältet måste finnas i sökresultaten. Du kan styra sökresultatets sammansättning med hjälp av frågeparametern select för att ange vilka fält som ska inkluderas.

Fortsätt till nästa sida.

Steg 4: Konfigurera indexeraren

Indexeraren styr indexeringsprocessen. Indexeraren definierar datakällans namn, ett målindex och körningsfrekvensen. Guiden Importera data skapar flera objekt, inklusive en indexerare som du kan återställa och köra upprepade gånger.

På sidan Indexer accepterar du standardnamnet och väljer En gång.
Välj Skicka för att skapa och kör indexeraren samtidigt.

Övervaka status

Välj Indexerare i det vänstra navigeringsfönstret för att övervaka status och välj sedan indexeraren. Kompetensbaserad indexering tar längre tid än textbaserad indexering, särskilt OCR och bildanalys.

Om du vill visa information om körningsstatus väljer du Lyckades (eller Misslyckades) för att visa körningsinformation.

I den här demonstrationen finns det några varningar: "Could not execute skill because one or more skill input was invalid." Den visar att en PNG-fil i datakällan inte ger någon textinmatning till entitetsigenkänning. Den här varningen beror på att den överordnade OCR-färdigheten inte kände igen någon text i bilden och därför inte kunde ange någon textinmatning till den underordnade entitetsigenkänningsfärdigheten.

Varningar är vanliga vid körning av kompetensuppsättningar. När du bekantar dig med hur kunskaper itererar över dina data kan du börja märka mönster och lära dig vilka varningar som är säkra att ignorera.

Fråga i Sökutforskaren

När ett index har skapats använder du Sökutforskaren för att returnera resultat.

Till vänster väljer du Index och sedan indexet. Sökutforskaren finns på den första fliken.
Ange en söksträng för att fråga indexet, till exempel satya nadella. Sökfältet accepterar nyckelord, citattecken och operatorer ("Satya Nadella" +"Bill Gates" +"Steve Ballmer").

Resultaten returneras som utförlig JSON, vilket kan vara svårt att läsa, särskilt i stora dokument. Några tips för att söka i det här verktyget innehåller följande tekniker:

Växla till JSON-vyn för att ange parametrar som formar resultatet.
Lägg till select för att begränsa fälten i resultat.
Lägg till count för att visa antalet matchningar.
Använd CTRL-F för att söka i JSON efter specifika egenskaper eller termer.

Här är några JSON som du kan klistra in i vyn:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

Dricks

Frågesträngar är skiftlägeskänsliga, så om du får ett meddelande om "okänt fält" markerar du Fält eller Indexdefinition (JSON) för att verifiera namn och skiftläge.

Lärdomar

Nu har du skapat din första kompetensuppsättning och lärt dig de grundläggande stegen i kunskapsbaserad indexering.

Några viktiga begrepp som vi hoppas att du har lärt dig är beroenden. En kompetensuppsättning är bunden till en indexerare och indexerare är Azure och källspecifika. Även om den här snabbstarten använder Azure Blob Storage är andra Azure-datakällor möjliga. Mer information finns i Indexerare i Azure AI Search.

Ett annat viktigt begrepp är att färdigheter fungerar över innehållstyper, och när du arbetar med heterogent innehåll hoppas vissa indata över. Dessutom kan stora filer eller fält överskrida indexeringsgränserna för din tjänstnivå. Det är normalt att se varningar när dessa händelser inträffar.

Utdata dirigeras till ett sökindex och det finns en mappning mellan namn/värde-par som skapats under indexering och enskilda fält i ditt index. Internt konfigurerar guiden ett berikningsträd och definierar en kompetensuppsättning som etablerar ordningen för åtgärder och det allmänna flödet. De här stegen är dolda i guiden, men när du börjar skriva kod blir dessa begrepp viktiga.

Slutligen har du lärt dig att du kan verifiera innehållet genom att fråga indexet. Det som Azure AI Search tillhandahåller är till slut ett sökbart index som du kan köra frågor mot med hjälp av antingen den enkla eller fullständigt utökade frågesyntaxen. Ett index som innehåller berikade fält är precis som andra fält. Om du vill införliva standardanalysverktyg eller anpassade analysverktyg, bedömningsprofiler, synonymer, fasetterad navigering, geo-sökning eller någon annan Azure AI Search-funktion kan du säkert göra det.

Rensa resurser

När du arbetar i din egen prenumeration kan det dock vara klokt att i slutet av ett projekt kontrollera om du fortfarande behöver de resurser som du skapade. Resurser som fortsätter att köras kostar pengar. Du kan ta bort enstaka resurser eller hela resursgruppen om du vill ta bort alla resurser.

Du kan hitta och hantera resurser i portalen med hjälp av länken Alla resurser eller Resursgrupper i det vänstra navigeringsfönstret.

Om du använde en kostnadsfri tjänst bör du komma ihåg att du är begränsad till tre index, indexerare och datakällor. Du kan ta bort enskilda objekt i portalen för att hålla dig under gränsen.

Nästa steg

Du kan skapa kunskapsuppsättningar med hjälp av portalen, .NET SDK eller REST API. Om du vill veta mer kan du prova REST API:et med hjälp av en REST-klient och fler exempeldata.

Självstudie: Extrahera text och struktur från JSON-blobar med hjälp av REST-API:er