KI-Prognoseoperator

Der KI-Prognoseoperator verwendet historische Zeitreihendaten, um Prognosen für zukünftige Trends zu generieren.

Dieser Operator vereinfacht und beschleunigt den Data Science-Prozess, indem er die Modellauswahl, die Hyperparameteroptimierung und die Featureidentifizierung für eine bestimmte Vorhersageaufgabe automatisiert.

Der Operator ist einfach zu bedienen und zu erweitern und so leistungsstark wie ein Team von Data Scientists. Um mit einer Prognose zu beginnen, verwenden Sie die folgende YAML-Konfiguration:
kind: operator
type: forecast
version: v1
spec:
    datetime_column:
        name: ds
    historical_data:
        url: https://raw.githubusercontent.com/facebook/prophet/main/examples/example_yosemite_temps.csv
    horizon: 3
    target_column: y

Dieses Beispiel wird in dieser Dokumentation auf verschiedene Arten erweitert. Alle Parameter, die über die angezeigten Parameter hinausgehen, sind jedoch optional.

Weitere Informationen finden Sie im Abschnitt "Prognose" der ADS-Dokumentation.

Modellierungsoptionen

Es gibt kein perfektes Modell. Ein Kernmerkmal des Operators ist die Auswahl aus verschiedenen Modell-Frameworks. Bei Unternehmens-KI sind in der Regel ein oder zwei Frameworks für den Problembereich am besten geeignet. Jedes Modell ist für verschiedene Annahmen wie Dataset-Größe, Häufigkeit, Komplexität und Saisonalität optimiert. Der beste Weg, um zu entscheiden, welches Framework für Sie richtig ist, ist durch empirische Tests. Basierend auf der Erfahrung mit mehreren Unternehmensprognosen hat das ADS-Team festgestellt, dass die folgenden Frameworks die effektivsten sind, von traditionellen statistischen Modellen bis hin zu komplexem maschinellem Lernen und tiefen neuronalen Netzwerken:
  • Prophet
  • ARIMA
  • LightGBM
  • NeuralProphet
  • AutoTS
Hinweis

AutoTS ist kein einzelnes Modellierungs-Framework, sondern eine Kombination aus vielen. AutoTS-Algorithmen umfassen (v0.6.15): ConstantNaive, LastValueNaive, AverageValueNaive, GLS, GLM, ETS, ARIMA, FBProphet, RollingRegression, GluonTS, SeasonalNaive, UnobservedComponents, VECM, DynamicFactor, MotifSimulation, WindowRegression, VAR, DatepartRegression, UnivariateRegression, UnivariateMotif, MultivariateMotif, NVAR, MultivariateRegression, SectionalMotif, Theta, ARDL, NeuralProphet, DynamicFactorMQ, PytorchForecasting, ARCH, RRVAR, MAR, TMF, LATC, KalmanStateSpace, MetricMotif, Cassandra, SeasonalityMotif, MLEnsemble, PreprocessingRegression, FFT, BallTreeMultivariateMotif, TiDE, NeuralForecast, DMD.

Automatisch auswählen

Für Benutzer, die neue Prognosen erstellen, verfügt der Operator auch über eine automatische Auswahloption. Dies ist die rechenintensivste Option, da sie die Trainingsdaten in mehrere Validierungsgruppen aufteilt, jedes Framework auswertet und versucht, das beste zu bestimmen. Die automatische Auswahl garantiert jedoch nicht, das beste Modell zu finden, und wird aufgrund seiner Komplexität nicht als Standardkonfiguration für Endbenutzer empfohlen.

Modell angeben

Sie können das erforderliche Modell manuell aus der Liste unter Modellierungsoptionen auswählen und in das Modellparameterslot einfügen. Beispiel:
kind: operator
type: forecast
version: v1
spec:
    datetime_column:
        name: ds
    historical_data:
        url: https://raw.githubusercontent.com/facebook/prophet/main/examples/example_yosemite_temps.csv
    horizon: 3
    model: <INSERT_MODEL_NAME_HERE>
    target_column: y

Bewertung und Erläuterung

Als KI-Lösung für Unternehmen stellt der Operator sicher, dass die Auswertung und Erläuterung von Prognosen genauso kritisch ist wie die Prognosen selbst.

Reporting

Bei jeder Operatorausführung wird ein Bericht generiert, in dem die geleistete Arbeit zusammengefasst wird. Der Bericht enthält:
  • Eine Zusammenfassung der Eingabedaten.
  • Eine Visualisierung der Prognose.
  • Eine Liste der wichtigsten Trends.
  • Eine Erklärung (mit SHAP-Werten) der zusätzlichen Funktionen.
  • Eine Tabelle mit Metriken.
  • Eine Kopie der YAML-Konfigurationsdatei.

Metriken

Verschiedene Anwendungsfälle werden für verschiedene Metriken optimiert. Mit dem Operator können Benutzer die zu optimierende Metrik in der folgenden Liste angeben:
  • Mittlerer absoluter prozentualer Fehler
  • RMSE
  • KMU
  • MSE
Optional kann die Metrik in der YAML-Datei angegeben werden:
kind: operator
type: forecast
version: v1
spec:
    datetime_column:
        name: ds
    historical_data:
        url: https://raw.githubusercontent.com/facebook/prophet/main/examples/example_yosemite_temps.csv
    horizon: 3
    model: prophet
    target_column: y
    metric: rmse

Erläuterungen

Wenn zusätzliche Daten bereitgestellt werden, kann der Operator optional Erklärungen für diese Features (Spalten) mit SHAP-Werten generieren. Sie können Erklärungen in der YAML-Datei aktivieren:
kind: operator
type: forecast
version: v1
spec:
    datetime_column:
        name: ds
    historical_data:
        url: https://raw.githubusercontent.com/facebook/prophet/main/examples/example_pedestrians_covid.csv
    additional_data:
        url: additional_data.csv
    horizon: 3
    model: prophet
    target_column: y
    generate_explanations: True
``` formatted YAML ```
Bei großen Datensätzen können SHAP-Werte teuer generiert werden. Unternehmensanwendungen können sich in ihrem Bedarf an Dezimalgenauigkeit im Vergleich zu den Rechenkosten unterscheiden. Daher bietet der Betreiber mehrere Möglichkeiten:
FAST_APPROXIMATE (Standard)
Generierte SHAP-Werte liegen in der Regel innerhalb von 1% der tatsächlichen Werte und erfordern 1% der Zeit.
AUSGEGLICHEN
Generierte SHAP-Werte liegen in der Regel innerhalb von 0,1% der tatsächlichen Werte und erfordern 10% der Zeit.
HIGH_ACCURACY
Generiert die wahren SHAP-Werte mit voller Genauigkeit.
kind: operator
type: forecast
version: v1
spec:
    datetime_column:
        name: ds
    historical_data:
        url: https://raw.githubusercontent.com/facebook/prophet/main/examples/example_yosemite_temps.csv
    horizon: 3
    model: prophet
    target_column: y
    generate_explanations: True
    explanations_accuracy_mode: BALANCED
Die Auswahl des besten Genauigkeitsmodus erfordert empirische Tests, aber FAST_APPROXIMATE reicht meistens für reale Daten aus.
Hinweis

Im vorherigen Beispiel werden keine Erklärungen generiert, da keine zusätzlichen Daten vorhanden sind. Die SHAP-Werte sind 100% für das Feature y.