Schlüsselphrasenextraktion

Bei der Schlüsselwortextraktion werden die Wörter mit der größten Relevanz und Ausdrücke automatisch aus dem Eingabetext extrahiert. Sie hilft bei der Zusammenfassung des Inhalts und erkennt die Hauptthemen.

Das Extraktionsmodell für Schlüsselphrasen verwendet NLP und ML, um Einblicke in die wichtigsten Punkte des Textes zu erhalten. Es versteht den unstrukturierten Eingabetext und gibt Schlüsselwörter und Schlüsselphrasen (KPs) zurück.

Die KPs bestehen aus Themen und Objekten, die im Dokument behandelt werden. Alle mit diesen Themen und Objekten verknüpften Modifikatoren, wie Adjektive, sind ebenfalls in der Ausgabe enthalten. Konfidenzscores für jede Schlüsselphrase, die das Vertrauen in die KP kennzeichnen, sind enthalten. Konfidenzscores sind Werte zwischen 0 und 1.

Anwendungsfälle

Beispiele für Business-Anwendungsfälle:

  • Markenmonitoring

  • Marktforschungsmonitoring

  • Wettbewerbsmarktanalyse

  • Kundensupporttickets

  • Analyse von Mitarbeiterfeedback

  • Kundenrezensionen

  • E-Mail-Analyse

Unterstützte Features

  • Schlüsselphrasen

  • Konfidenzscores

  • Anforderungen unterstützen Batches mit einzelnen Datensätzen und mit mehreren Datensätzen.

Unterstützte Sprachen für Eingabetext

  • Englisch
  • Spanisch

Beispiele

Eingabetext Schlüsselphrasen
Red Bull Racing Honda, the four-time Formula-1 World 
Champion team, has chosen Oracle Cloud Infrastructure 
(OCI) as their infrastructure partner. 
Red Bull Racing Honda 0.9997
Oracle Cloud Infrastructure 0.9583
infrastructure partner 0.9583
oci 0.9979
OCI recently added new services to the existing 
compliance program including SOC, HIPAA, and ISO, to enable our customers 
to solve their use cases. We also released new technical papers and 
guidance documents related to Object Storage, the Australian Prudential 
Regulation Authority (APRA), and the Central Bank of Brazil. These 
resources help regulated customers better understand how OCI 
supports their regional and industry-specific compliance requirements. 
Not only are we expanding our number of compliance offerings and 
regulatory alignments, we continue to add regions and services at 
a faster rate.
OCI 0.9999
new services 0.9998
existing compliance program 0.9998
including SOC 0.9998
use cases 0.9998
new white papers 0.9998
guidance documents 0.9998
Object Storage 0.9998
Australian Prudential Regulation Authority 0.9998
Central Bank of Brazil 0.9998
regulated customers 0.9998
industry-specific compliance requirements 0.9998
number of compliance offerings 0.9998
regulatory alignments 0.9998
faster rate 0.9998
ISO 0.9992
customers 0.9992
apra 0.9992
resources 0.9992
services 0.8186
HIPPA 0.9979
regions 0.9147

JSON für das erste Beispiel:

Beispielanforderung
POST https://<region-url>/20210101/actions/batchDetectLanguageKeyPhrases
API-Anforderungsformat:
{
  "documents": [
    {
      "key": "doc1",
      "text": "Red Bull Racing Honda, the four-time Formula-1 World Champion team, has chosen Oracle Cloud Infrastructure (OCI) as their infrastructure partner."
    }
  ]
}
JSON-Antwort
{
    "documents": [
        {
            "key": "1",
            "keyPhrases": [
                {
                    "text": "red bull racing honda",
                    "score": 0.9997546563973576
                },
                {
                    "text": "oracle cloud infrastructure",
                    "score": 0.9997546563973576
                },
                {
                    "text": "infrastructure partner",
                    "score": 0.9997546563973576
                },
                {
                    "text": "oci",
                    "score": 0.9979336625058923
                }
            ],
            "languageCode": "en"
        }
    ],
    "errors": []
}

Einschränkungen

  • Schlüsselphrasen, bei denen es sich um Nominalphrasen mit Adjektivmodifikatoren handelt, werden so gekennzeichnet, dass Wörter, die diesen Kriterien nicht entsprechen, ignoriert werden können.

  • Bei diesem Modell wird die Groß- und Kleinschreibung nicht berücksichtigt.

  • Text mit mehreren Satzzeichen zwischen Wörtern wird möglicherweise als Schlüsselphrase gekennzeichnet.

  • Wohlgeformte URLs (Anfang mit http, https oder www) werden identifiziert.