Jak používat souhrn dokumentů

Článek
03/05/2024

Shrnutí dokumentů je navržené tak, aby zkracuje obsah, který uživatelé považují za příliš dlouhou, než si můžou přečíst. Extrahující i abstrakční shrnutí kondenzují články, dokumenty nebo dokumenty na klíčové věty.

Extrakce souhrnu: Vytvoří souhrn extrahováním vět, které souhrnně představují nejdůležitější nebo relevantní informace v původním obsahu.

Abstraktní shrnutí: Vytvoří souhrn generováním souhrnných vět z dokumentu, který zachycuje hlavní myšlenku.

Shrnutí zaměřené na dotazy: Umožňuje použít dotaz při sumarizaci.

Každá z těchto funkcí dokáže shrnout určité položky, které jsou v zadaném stavu zajímavé.

Modely AI používané rozhraním API jsou poskytovány službou, stačí odeslat obsah k analýze.

Pro snadnější navigaci jsou tady odkazy na odpovídající oddíly pro každou službu:

Aspekt	Sekce
Těžebního	Extrakce souhrnu
Abstrakce	Abstrctive Summarization
Zaměřená na dotazy	Souhrny zaměřené na dotazy

Funkce

Tip

Pokud chcete tyto funkce začít používat, můžete začít podle článku rychlý start. Pomocí sady Language Studio můžete také vytvářet ukázkové požadavky, aniž byste museli psát kód.

Rozhraní API pro extrakci souhrnu používá techniky zpracování přirozeného jazyka k vyhledání klíčových vět v nestrukturovaném textovém dokumentu. Tyto věty souhrnně vyjadřují hlavní myšlenku dokumentu.

Extrakce souhrnu vrátí skóre pořadí jako součást systémové odpovědi spolu s extrahovanými větami a jejich umístěním v původních dokumentech. Skóre pořadí je indikátorem toho, jak je věta určena pro hlavní myšlenku dokumentu. Model poskytuje skóre mezi 0 a 1 (včetně) každé věty a vrátí nejvyšší skóre v jednotlivých větách. Pokud například požadujete souhrn tří vět, vrátí služba tři věty s nejvyšším skóre.

V jazyce Azure AI je další funkce extrakce klíčových frází, která dokáže extrahovat klíčové informace. Při rozhodování mezi extrakcí klíčových frází a extrahovým souhrnem vezměte v úvahu následující skutečnosti:

Extrakce klíčových frází vrací fráze a extrakce souhrnů vrací věty.
Extrakce souhrnu vrátí věty společně se skóre pořadí a na požadavek se vrátí nejvyšší seřazené věty.
Extrakce souhrnu také vrátí následující poziční informace:
- Posun: Počáteční pozice každé extrahované věty.
- Délka: Délka každé extrahované věty.

Určení způsobu zpracování dat (volitelné)

Odesílání dat

Dokumenty odešlete do rozhraní API jako řetězce textu. Analýza se provede po přijetí žádosti. Vzhledem k tomu, že rozhraní API je asynchronní, může dojít ke zpoždění mezi odesláním požadavku rozhraní API a příjmem výsledků.

Při použití této funkce jsou výsledky rozhraní API k dispozici po dobu 24 hodin od doby, kdy se žádost ingestovala, a je uvedena v odpovědi. Po uplynutí tohoto časového období se výsledky vyprázdní a už nejsou k dispozici pro načtení.

Získání výsledků shrnutí dokumentu

Když dostanete výsledky z rozpoznávání jazyka, můžete výsledky streamovat do aplikace nebo uložit výstup do souboru v místním systému.

Následuje příklad obsahu, který můžete odeslat k sumarizaci, která se extrahuje pomocí článku blogu Microsoftu A holistická reprezentace směrem k integrativní umělé inteligenci. Tento článek je pouze příkladem, rozhraní API může přijímat delší vstupní text. Další informace najdete v části omezení dat.

"V Microsoftu jsme byli na cestě k tomu, abychom pokročili nad rámec stávajících technik AI, a to tím, že jsme se naučili a porozuměli komplexnějšímu přístupu zaměřenému na člověka. Jako technický ředitel služeb Azure AI jsem pracoval s týmem úžasných vědců a inženýrů, aby tento úkol přeměnili na realitu. V mé roli si užívám jedinečnou perspektivu při prohlížení vztahu mezi třemi atributy lidského poznání: monolinguální text (X), zvukové nebo vizuální smyslové signály, (Y) a vícejazyčné (Z). V průsečíku všech tří je magie – co nazýváme XYZ-code, jak je znázorněno na obrázku 1 – společná reprezentace pro vytvoření výkonnější umělé inteligence, která umí mluvit, slyšet, vidět a lépe porozumět lidem. Věříme, že XYZ-code nám umožňuje plnit naši dlouhodobou vizi: výuku přenosu mezi doménami, různé způsoby a jazyky. Cílem je mít předem natrénované modely, které se společně učí reprezentace, aby podporovaly širokou škálu podřízených úkolů AI, a to způsobem, jakým dnes lidé dělají. Za posledních pět let jsme dosáhli lidského výkonu na srovnávacích testech v konverzačním rozpoznávání řeči, strojovém překladu, odpovídání na konverzační otázky, porozumění strojovému čtení a popis obrázků. Tyto pět převratů nám poskytlo silné signály směrem k naší ambicióznější snaze o dosažení schopností umělé inteligence, dosažení vícesměrového a vícejazyčného učení, které je blíže v souladu s tím, jak se lidé učí a chápou. Domnívám se, že společný kód XYZ-code je základní součástí této aspirace, pokud je založený na externích zdrojích znalostí v podřízených úkolech umělé inteligence."

Požadavek rozhraní API souhrnu dokumentů se zpracuje po přijetí požadavku vytvořením úlohy pro back-end rozhraní API. Pokud úloha proběhla úspěšně, vrátí se výstup rozhraní API. Výstup je k dispozici pro načtení po dobu 24 hodin. Po této době se výstup vyprázdní. Kvůli podpoře vícejazyčných a emoji může odpověď obsahovat posuny textu. Další informace najdete v tématu zpracování posunů .

Když použijete výše uvedený příklad, rozhraní API může vrátit následující souhrnné věty:

Extrakce souhrnu:

"V Microsoftu jsme byli na cestě k tomu, abychom AI přešli nad rámec stávajících technik, a to tím, že jsme se naučili a porozuměli komplexnějšímu přístupu zaměřenému na člověka."
"Věříme, že XYZ-code nám umožňuje plnit naši dlouhodobou vizi: učení se přenosem mezi doménami, přes různé způsoby a jazyky."
"Cílem je mít předem natrénované modely, které se společně učí reprezentace, aby podporovaly širokou škálu podřízených úkolů umělé inteligence, mnohem způsobem, jakým lidé dnes dělají."

Shrnutí abstrakce:

"Microsoft přistupuje k učení a porozumění komplexnějšímu přístupu zaměřenému na člověka. Věříme, že XYZ-code nám umožňuje plnit naši dlouhodobou vizi: výuku přenosu mezi doménami, různé způsoby a jazyky. Za posledních pět let jsme dosáhli lidského výkonu na srovnávacích testech."

Vyzkoušení extrakce souhrnu dokumentu

Pomocí extrahování dokumentů můžete získat souhrny článků, dokumentů nebo dokumentů. Příklad najdete v článku rychlého startu.

Parametr můžete použít k vodítku sentenceCount , kolik vět se vrátí, a to s 3 výchozím nastavením. Rozsah je od 1 do 20.

Pomocí parametru sortby můžete také určit, v jakém pořadí se extrahované věty vrátí – buď Offset nebo Rank, s Offset výchozím nastavením.

hodnota parametru	Popis
Rank	Seřadit věty podle jejich relevance pro vstupní dokument podle rozhodnutí služby.
Odsazení	Zachová původní pořadí, ve kterém se věty zobrazí ve vstupním dokumentu.

Vyzkoušení abstrakční sumarizace dokumentu

Následující příklad vám pomůže začít s abstrakčním souhrnem dokumentu:

Zkopírujte následující příkaz do textového editoru. Příklad BASH používá \ znak pokračování řádku. Pokud konzola nebo terminál používá jiný znak pokračování řádku, použijte tento znak.

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Document Abstractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "AbstractiveSummarization",
      "taskName": "Document Abstractive Summarization Task 1",
      "parameters": {
        "summaryLength": short
      }
    }
  ]
}
'

Pokud nezadáte sentenceCount, model určuje souhrnnou délku. Všimněte si, že sentenceCount je aproximace počtu vět souhrnu výstupu v rozsahu 1 až 20. Použití funkce sentenceCount se nedoporučuje pro abstraktivní shrnutí.

Proveďte v příkazu na příslušných místech následující změny:
- Nahraďte hodnotu your-language-resource-key klíčem.
- Nahraďte první část adresy URL požadavku adresou URL your-language-resource-endpoint koncového bodu.
Otevřete okno příkazového řádku (například BASH).
Vložte příkaz z textového editoru do okna příkazového řádku a pak příkaz spusťte.
Získejte z hlavičky operation-location odpovědi. Hodnota vypadá podobně jako následující adresa URL:

https://<your-language-resource-endpoint>/language/analyze-text/jobs/12345678-1234-1234-1234-12345678?api-version=2022-10-01-preview

Pokud chcete získat výsledky požadavku, použijte následující příkaz cURL. Nezapomeňte nahradit <my-job-id> číselnou hodnotou ID, kterou jste dostali z předchozí operation-location hlavičky odpovědi:

curl -X GET https://<your-language-resource-endpoint>/language/analyze-text/jobs/<my-job-id>?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>"

Příklad odpovědi JSON pro shrnutí abstraktního dokumentu

{
    "jobId": "cd6418fe-db86-4350-aec1-f0d7c91442a6",
    "lastUpdateDateTime": "2022-09-08T16:45:14Z",
    "createdDateTime": "2022-09-08T16:44:53Z",
    "expirationDateTime": "2022-09-09T16:44:53Z",
    "status": "succeeded",
    "errors": [],
    "displayName": "Document Abstractive Summarization Task Example",
    "tasks": {
        "completed": 1,
        "failed": 0,
        "inProgress": 0,
        "total": 1,
        "items": [
            {
                "kind": "AbstractiveSummarizationLROResults",
                "taskName": "Document Abstractive Summarization Task 1",
                "lastUpdateDateTime": "2022-09-08T16:45:14.0717206Z",
                "status": "succeeded",
                "results": {
                    "documents": [
                        {
                            "summaries": [
                                {
                                    "text": "Microsoft is taking a more holistic, human-centric approach to AI. We've developed a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We've achieved human performance on benchmarks in conversational speech recognition, machine translation, ...... and image captions.",
                                    "contexts": [
                                        {
                                            "offset": 0,
                                            "length": 247
                                        }
                                    ]
                                }
                            ],
                            "id": "1"
                        }
                    ],
                    "errors": [],
                    "modelVersion": "latest"
                }
            }
        ]
    }
}

parametr	Popis
`-X POST <endpoint>`	Určuje koncový bod pro přístup k rozhraní API.
`-H Content-Type: application/json`	Typ obsahu pro odesílání dat JSON.
`-H "Ocp-Apim-Subscription-Key:<key>`	Určuje klíč pro přístup k rozhraní API.
`-d <documents>`	JSON obsahující dokumenty, které chcete odeslat.

Následující příkazy cURL se spouští z prostředí BASH. Tyto příkazy můžete upravit pomocí vlastního názvu prostředku, klíče prostředku a hodnot JSON.

Shrnutí založené na dotazech

Rozhraní API pro sumarizaci dokumentů založené na dotazech je rozšířením stávajícího rozhraní API pro sumarizaci dokumentů.

Největší rozdíl je nové query pole v textu požadavku (v části>tasksparameters>query ). Kromě toho existuje nový způsob, jak určit preferovaný summaryLength v "kbelíkech" krátkých/středních/dlouhých, které doporučujeme místo sentenceCount, zejména při použití abstrakce. Níže je příklad požadavku:

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2023-11-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Document Extractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "ExtractiveSummarization",
      "taskName": "Document Extractive Summarization Task 1",
      "parameters": {
        "query": "XYZ-code",
        "summaryLength": short
      }
    }
  ]
}
'

Použití summaryParameter

summaryLength Pro parametr jsou přijímány tři hodnoty:

short: Vygeneruje souhrn většinou 2 až 3 vět s přibližně 120 tokeny.
střední: Generuje souhrn většinou 4 až 6 vět s přibližně 170 tokeny.
long: Generuje souhrn většinou více než 7 vět s přibližně 210 tokeny.

Limity služeb a dat

Informace o velikosti a počtu požadavků, které můžete odeslat za minutu a sekundu, najdete v článku o omezeních služeb.

Viz také

Přehled shrnutí