Verwenden der Dokumentzusammenfassung

Artikel
12/19/2023

Dokumentzusammenfassung wurde entwickelt, um Inhalte zu kürzen, die Benutzer für zu lang zum Lesen halten. Die extraktive sowie abstrakte Zusammenfassung fasst Artikel und Dokumente zu Kernsätzen zusammen.

Extraktive Zusammenfassung: Erstellt eine Zusammenfassung, indem Sätze extrahiert werden, die zusammen die wichtigsten oder relevantesten Informationen innerhalb des ursprünglichen Inhalts darstellen.

Abstrakte Zusammenfassung: Erstellt eine Zusammenfassung, indem zusammengefasste Sätze aus dem Dokument generiert werden, die die Hauptidee erfassen.

Abfrageorientierte Zusammenfassung: Ermöglicht die Verwendung einer Abfrage beim Zusammenfassen.

Jede dieser Funktionen sind in der Lage, bestimmte interessante Elemente zusammenzufassen, wenn diese angegeben werden.

Die von der API verwendeten KI-Modelle werden vom Dienst bereitgestellt. Sie müssen lediglich Inhalte für die Analyse senden.

Um die Navigation zu erleichtern, finden Sie hier Links zu den entsprechenden Abschnitten für jeden Dienst:

Aspekt	Abschnitt
Extrahierend	Extrahierende Zusammenfassung
Abstrakt	Abstrakte Zusammenfassungen
Abfrageorientiert	Abfrageorientierte Zusammenfassung

Features

Tipp

Informationen zu den ersten Schritte zur Verwendung dieser Features finden Sie im Schnellstartartikel. Sie können auch Beispielanforderungen in Language Studio erstellen, ohne Code schreiben zu müssen.

Die API für die extraktive Zusammenfassung verwendet Verarbeitungstechniken für natürliche Sprache, um Kernsätze in einem unstrukturierten Textdokument zu finden. Diese Sätze vermitteln zusammen die Hauptidee des Dokuments.

Die extraktive Zusammenfassung gibt eine Rangfolge als Teil der Systemantwort zusammen mit extrahierten Sätzen und ihrer Position in den ursprünglichen Dokumenten zurück. Eine Rangfolge gibt an, als wie relevant für die Hauptidee eines Dokuments ein Satz eingestuft wird. Das Modell gibt für jeden Satz eine Bewertung zwischen 0 und 1 (einschließlich) an und gibt pro Anforderung die Sätze mit der höchsten Bewertung zurück. Wenn Sie beispielsweise eine Zusammenfassung mit drei Sätzen anfordern, gibt der Dienst die drei am höchsten bewerteten Sätze zurück.

Ein weiteres Feature in Azure KI Language, die Extraktion von Schlüsselbegriffen, kann Schlüsselinformationen extrahieren. Berücksichtigen Sie bei der Entscheidung zwischen Schlüsselbegriffsextraktion und extraktiver Zusammenfassung Folgendes:

Die Schlüsselbegriffsextraktion gibt Ausdrücke zurück, während die extraktive Zusammenfassung Sätze zurückgibt.
Die extraktive Zusammenfassung gibt Sätze zusammen mit einer Rangfolge zurück, und Sätze mit dem höchsten Rang werden pro Anforderung zurückgegeben.
Die extraktive Zusammenfassung gibt auch die folgenden Positionsinformationen zurück:
- Offset: Die Anfangsposition jedes extrahierten Satzes.
- Länge: Die Länge jedes extrahierten Satzes.

Festlegen der Art der Datenverarbeitung (optional)

Übermitteln der Daten

Sie übermitteln Dokumente als Textzeichenfolgen an die API. Die Analyse erfolgt, wenn die Anforderung eingeht. Da es sich um eine asynchrone API handelt, kann es zu einer Verzögerung zwischen dem Senden einer API-Anforderung und dem Erhalt der Ergebnisse kommen.

Wenn Sie dieses Feature verwenden, sind die API-Ergebnisse ab der Erfassung der Anforderung wie in der Antwort angegeben 24 Stunden lang verfügbar. Nach diesem Zeitraum werden die Ergebnisse endgültig gelöscht und stehen nicht mehr zum Abruf zur Verfügung.

Abrufen von Dokumentzusammenfassungsergebnissen

Wenn Sie Ergebnisse von der Sprachenerkennung erhalten, können Sie die Ergebnisse an eine Anwendung streamen oder die Ausgabe in einer Datei im lokalen System speichern.

Im Folgenden finden Sie ein Beispiel für Inhalte, die Sie zur Zusammenfassung übermitteln können, die mithilfe des Microsoft-Blogartikels Ganzheitliche Darstellung in Richtung integrativer KI extrahiert werden. Dieser Artikel ist nur ein Beispiel dafür, dass die API längeren Eingabetext verarbeiten kann. Weitere Informationen finden Sie im Abschnitt „Datengrenzwerte“.

„Bei Microsoft verfolgen wir das Ziel, KI über den aktuellen Stand der Technik hinaus zu verbessern. Dabei wählen wir einen ganzheitlicheren, benutzerzentrierten Ansatz für das Lernen und Verstehen.“ Als Chief Technology Officer von Azure KI Services habe ich mit einem Team von erstaunlichen Wissenschaftlern und Ingenieuren zusammengearbeitet, um dieses Vorhaben in die Tat umzusetzen. „In meiner Rolle sehe ich die Beziehung der drei Attribute der menschlichen Wahrnehmung aus einer ganz besonderen Perspektive: einsprachiger Text (X), Audiosignale oder visuelle Signale (Y) und mehrsprachiger Text (Z).“ Die Schnittmenge dieser drei Attribute ist jedoch der Schlüssel. Wir bezeichnen das als XYZ-Code (Abbildung 1). Durch das Zusammenspiel dieser Faktoren können wir leistungsfähigere KI schaffen, die sprechen, hören, sehen und Menschen besser verstehen kann. Wir sind der Meinung, dass XYZ-Code uns die Möglichkeit gibt, unsere langfristige Vision zu realisieren: domänenübergreifender Lerntransfer über Modalitäten und Sprachgrenzen hinweg. Das Ziel besteht in der Verfügbarkeit vortrainierter Modelle, die gemeinsam Darstellungen erlernen können, um eine Vielzahl von nachgelagerten KI-Aufgaben zu unterstützen, ganz ähnlich wie Menschen es heute tun. Im Lauf der letzten fünf Jahre haben wir bei Benchmarks für Spracherkennung in Unterhaltungen, maschinelle Übersetzung, Beantwortung von Fragen im Unterhaltungskontext, maschinelles Leseverständnis und Bildbeschriftung ein menschliches Leistungsniveau erzielt. Diese fünf Durchbrüche waren für uns ein starkes Signal im Hinblick auf unser ehrgeizigeres Ziel, einen Sprung in den KI-Fähigkeiten zu erreichen, indem wir zu einem multisensorischen und mehrsprachigen Lernen gelangen, das dem menschlichen Lernen und Verstehen ähnlicher ist. Meiner Meinung nach ist gemeinsamer XYZ-Code eine Grundkomponente dieser Aufgabe, wenn er sich auf externe Wissensquellen in den nachgelagerten KI-Aufgaben stützt."

Die API-Anforderung zur Dokumentzusammenfassung wird nach Eingang der Anforderung verarbeitet, indem ein Auftrag für das API-Back-End erstellt wird. Wenn der Auftrag erfolgreich war, wird die Ausgabe der API zurückgegeben. Die Ausgabe kann 24 Stunden lang abgerufen werden. Anschließend wird die Ausgabe gelöscht. Aufgrund der Unterstützung von Emojis und mehreren Sprachen enthält der Antworttext unter Umständen Textverschiebungen. Weitere Informationen finden Sie unter Textversätze in der Ausgabe der Textanalyse-API.

Wenn Sie das obige Beispiel verwenden, kann die API beispielsweise die folgenden zusammengefassten Sätze zurückgeben:

Extraktive Zusammenfassung:

„Bei Microsoft verfolgen wir das Ziel, KI über den aktuellen Stand der Technik hinaus zu verbessern. Dabei wählen wir einen ganzheitlicheren, benutzerzentrierten Ansatz für das Lernen und Verstehen.“
„Wir sind der Meinung, dass XYZ-Code uns die Möglichkeit gibt, unsere langfristige Vision zu realisieren: domänenübergreifender Lerntransfer über Modalitäten und Sprachgrenzen hinweg.“
„Das Ziel besteht in der Verfügbarkeit vortrainierter Modelle, die gemeinsam Darstellungen erlernen können, um eine Vielzahl von nachgelagerten KI-Aufgaben zu unterstützen, ganz ähnlich wie Menschen es heute tun.“

Abstrakte Zusammenfassung:

„Microsoft verfolgt einen ganzheitlicheren, auf den Menschen ausgerichteten Ansatz für das Lernen und Verstehen. Wir sind der Meinung, dass XYZ-Code uns die Möglichkeit gibt, unsere langfristige Vision zu realisieren: domänenübergreifender Lerntransfer über Modalitäten und Sprachgrenzen hinweg. In den letzten fünf Jahren haben wir menschliche Leistung auf Benchmarks erreicht.“

Testen der extraktiven Dokumentzusammenfassung

Sie können die extraktive Dokumentenzusammenfassung verwenden, um Zusammenfassungen von Artikeln, Papieren oder Dokumenten zu erhalten. Ein Beispiel dazu finden Sie im Schnellstartartikel.

Verwenden Sie den Parameter sentenceCount, um anzugeben, wie viele Sätze zurückgegeben wurden, wobei 3 der Standardwert ist. Der Bereich liegt zwischen 1 und 20.

Sie können auch mit dem Parameter sortby angeben, in welcher Reihenfolge die extrahierten Sätze zurückgegeben werden sollen. Dabei sind die Optionen Offset oder Rank verfügbar, wobei Offset der Standardwert ist.

Parameterwert	BESCHREIBUNG
Rang	Sätze werden gemäß ihrer Relevanz im Eingabedokument vom Dienst sortiert.
Offset	Die ursprüngliche Reihenfolge der Sätze im Eingabedokument wird beibehalten.

Testen der abstrakten Dokumentzusammenfassung

Das folgende Beispiel verhilft Ihnen zu einem Einstieg in die abstrakte Dokumentzusammenfassung:

Kopieren Sie den Befehl unten in einen Text-Editor. Im BASH-Beispiel wird das Zeilenfortsetzungszeichen \ verwendet. Wenn Ihre Konsole oder Ihr Terminal ein anderes Zeilenfortsetzungszeichen nutzt, verwenden Sie stattdessen dieses Zeichen.

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Document Abstractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "AbstractiveSummarization",
      "taskName": "Document Abstractive Summarization Task 1",
      "parameters": {
        "summaryLength": short
      }
    }
  ]
}
'

Wenn Sie sentenceCount nicht angeben, bestimmt das Modell die Länge der Zusammenfassung. Beachten Sie, dass sentenceCount eine Schätzung für die Anzahl der Sätze in der Ausgabezusammenfassung ist (Bereich 1 bis 20). Die Verwendung von sentenceCount wird nicht für abstrakte Zusammenfassungen empfohlen.

Nehmen Sie die folgenden Änderungen im Befehl vor, falls dies erforderlich ist:
- Ersetzen Sie den Wert your-language-resource-key durch Ihren Schlüssel.
- Ersetzen Sie den ersten Teil der Anforderungs-URL your-language-resource-endpoint durch Ihre Endpunkt-URL.
Öffnen Sie ein Eingabeaufforderungsfenster (z. B. BASH).
Fügen Sie den Befehl aus dem Text-Editor in das Eingabeaufforderungsfenster ein, und führen Sie den Befehl dann aus.
Rufen Sie operation-location aus dem Antwortheader ab. Der Wert ähnelt der folgenden URL:

https://<your-language-resource-endpoint>/language/analyze-text/jobs/12345678-1234-1234-1234-12345678?api-version=2022-10-01-preview

Verwenden Sie den folgenden cURL-Befehl, um die Ergebnisse der Anforderung abzurufen. Ersetzen Sie <my-job-id> durch den numerischen ID-Wert, den Sie aus dem vorherigen operation-location-Antwortheader erhalten haben:

curl -X GET https://<your-language-resource-endpoint>/language/analyze-text/jobs/<my-job-id>?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>"

JSON-Antwort für das Beispiel für abstrakte Dokumentzusammenfassung

{
    "jobId": "cd6418fe-db86-4350-aec1-f0d7c91442a6",
    "lastUpdateDateTime": "2022-09-08T16:45:14Z",
    "createdDateTime": "2022-09-08T16:44:53Z",
    "expirationDateTime": "2022-09-09T16:44:53Z",
    "status": "succeeded",
    "errors": [],
    "displayName": "Document Abstractive Summarization Task Example",
    "tasks": {
        "completed": 1,
        "failed": 0,
        "inProgress": 0,
        "total": 1,
        "items": [
            {
                "kind": "AbstractiveSummarizationLROResults",
                "taskName": "Document Abstractive Summarization Task 1",
                "lastUpdateDateTime": "2022-09-08T16:45:14.0717206Z",
                "status": "succeeded",
                "results": {
                    "documents": [
                        {
                            "summaries": [
                                {
                                    "text": "Microsoft is taking a more holistic, human-centric approach to AI. We've developed a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We've achieved human performance on benchmarks in conversational speech recognition, machine translation, ...... and image captions.",
                                    "contexts": [
                                        {
                                            "offset": 0,
                                            "length": 247
                                        }
                                    ]
                                }
                            ],
                            "id": "1"
                        }
                    ],
                    "errors": [],
                    "modelVersion": "latest"
                }
            }
        ]
    }
}

parameter	BESCHREIBUNG
`-X POST <endpoint>`	Gibt den Endpunkt für den Zugriff auf die API an
`-H Content-Type: application/json`	Der Inhaltstyp zum Senden von JSON-Daten
`-H "Ocp-Apim-Subscription-Key:<key>`	Gibt den Schlüssel für den Zugriff auf die API an
`-d <documents>`	Die JSON-Datei, die die zu sendenden Dokumente enthält

Die folgenden cURL-Befehle werden über eine Bash-Shell ausgeführt. Fügen Sie in diese Befehle Ihren Ressourcennamen und Ressourcenschlüssel sowie Ihre JSON-Werte ein.

Abfragebasierte Zusammenfassung

Die abfragebasierte Dokumentzusammenfassungs-API ist eine Erweiterung der vorhandenen Dokumentzusammenfassungs-API.

Der größte Unterschied ist ein neues query-Feld im Anforderungstext (unter tasks>parameters>query). Darüber hinaus gibt es eine neue Möglichkeit, den bevorzugten summaryLength-Parameter in „Buckets“ von short/medium/long (kurz/mittel/lang) anzugeben, die wir anstelle von sentenceCount zu verwenden empfehlen, insbesondere bei Verwendung der abstrakten Zusammenfassung. Nachfolgend finden Sie eine Beispielanforderung:

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2023-11-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Document Extractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "ExtractiveSummarization",
      "taskName": "Document Extractive Summarization Task 1",
      "parameters": {
        "query": "XYZ-code",
        "summaryLength": short
      }
    }
  ]
}
'

Verwenden des summaryParameter

Für den Parameter summaryLength werden drei Werte akzeptiert:

kurz: Erzeugt eine Zusammenfassung von meist 2-3 Sätzen, mit etwa 120 Token.
mittel: Erzeugt eine Zusammenfassung von meist 4-6 Sätzen, mit etwa 170 Token.
lang: Erzeugt eine Zusammenfassung von meist 7 Sätzen, mit etwa 210 Token.

Grenzwerte für Dienste und Daten

Informationen zur Größe und Anzahl der Anforderungen, die Sie pro Minute und pro Sekunde senden können, finden Sie im Artikel Diensteinschränkungen.

Weitere Informationen

Übersicht über die Zusammenfassung