Utiliser des modèles de machine learning (ML)

Data Transforms prend en charge l'utilisation du modèle ML dans un flux de données. Découvrez comment créer et utiliser des modèles d'apprentissage automatique dans des flux de données.

Sujets

Créer une entité de données de modèle d'apprentissage automatique dans l'éditeur de flux de données

Pour utiliser des modèles de machine learning dans les transformations de données, vous devez créer deux flux de données. Vous devez d'abord créer l'entité de données du modèle d'apprentissage automatique à l'aide de l'éditeur Data Flow, puis vous pouvez utiliser l'entité de données dans un flux de données pour extraire des données d'une connexion source et les charger dans un serveur cible.

Pour créer une entité de données de modèle d'apprentissage automatique dans l'éditeur Data Flow, procédez comme suit :

  1. Faites glisser l'entité de données sur laquelle vous voulez créer le modèle d'apprentissage automatique vers le canevas de conception.
  2. Sélectionnez le composant et cliquez sur l'icône Ajouter une entité de données Icône Ajouter une entité de données présente dans l'angle supérieur droit du composant cible.
  3. La page Ajouter une entité de données apparaît et vous permet de configurer les détails suivants du composant cible :

    Onglet Général

    • Dans la zone de texte Nom, entrez le nom de la nouvelle entité de données créée.
    • Dans la liste déroulante Type d'entité, sélectionnez le type d'entité de données Modèle ML.
      Lorsque vous sélectionnez ce type d'entité, l'interface utilisateur change comme suit :
      • La liste déroulante Connexion répertorie uniquement les connexions Oracle que vous avez créées.
      • L'assistant Ajouter une entité de données affiche l'onglet Propriétés dans lequel vous pouvez sélectionner le type d'apprentissage, la fonction, l'algorithme et configurer les paramètres pour définir le modèle d'apprentissage automatique. Pour plus d'informations, reportez-vous à Propriétés d'entité de données de modèle ML.
    • Dans la liste déroulante Type de connexion, sélectionnez la connexion requise à partir de laquelle vous souhaitez ajouter la nouvelle entité de données créée. Pour les entités de données du modèle ML, la liste déroulante Type de connexion répertorie uniquement Oracle comme option.
    • La liste déroulante Connexion contient les connexions que vous avez créées avec le type de connexion associé. Dans la liste déroulante Connexion, sélectionnez le nom du serveur dans lequel conserver l'entité de données du modèle d'apprentissage automatique.
    • Dans la liste déroulante Schéma, tous les schémas correspondant à la connexion sélectionnée sont répertoriés dans deux groupes.
      • Nouveau schéma de base de données (ceux dont vous n'avez pas importé auparavant) et
      • Schéma de base de données existant (ceux dont vous avez importé précédemment et qui remplacent potentiellement des entités de données).
      Dans la liste déroulante Schéma, sélectionnez le schéma requis.
    • Dans la zone de texte Balises, entrez la balise de votre choix. Vous pouvez utiliser des balises pour filtrer les entités de données affichées sur la page Entité de données.
    • Pour marquer cette entité de données comme groupe de fonctions, développez Options avancées et cochez la case Traiter comme groupe de fonctions.
    • Cliquez sur Suivant.

    Onglet Propriétés

    • Sélectionnez le type d'apprentissage, la fonction et l'algorithme à utiliser pour créer cette entité de données. Pour plus d'informations sur les options, reportez-vous à Propriétés d'entité de données de modèle ML.
    • Selon les options sélectionnées, la section Paramètres est renseignée avec la liste des paramètres marqués comme "Importance" et "Elevée". Vous pouvez ajouter les autres paramètres requis à l'aide de l'icône Icône Ajouter des paramètres.

      Vous devez indiquer une valeur pour chaque paramètre afin que le flux de données puisse s'exécuter correctement.

    Onglet Colonnes

    • Cliquez sur l'icône Icône Ajouter des colonnes Add Columns (Ajouter des colonnes) pour ajouter des colonnes à la nouvelle entité de données.

      Une nouvelle colonne est ajoutée au tableau affiché.

    • La table comporte les colonnes suivantes :
      • Nom
      • Type de données : cliquez sur la cellule pour configurer le type de données requis.
      • Redimensionner
      • Longueur
      • Actions : cliquez sur l'icône en forme de croix pour supprimer la colonne créée.
    • Pour supprimer les colonnes en masse, sélectionnez-les et cliquez sur l'icône Icône Supprimer Supprimer.
    • Pour rechercher les détails de colonne requis, saisissez le nom de colonne requis dans la zone de texte Rechercher et cliquez sur Entrée. Les détails de la colonne requise s'affichent.
    • Cliquez sur Suivant.

    Onglet Aperçu de l'entité de données

    Il affiche un aperçu de toutes les colonnes créées et de leurs détails configurés. Si l'entité de données appartient à une base de données Oracle, vous pouvez également visualiser les statistiques de la table. Pour plus d'informations, reportez-vous à Visualiser les statistiques des entités de données.

  4. Cliquez sur Enregistrer pour enregistrer la configuration et quitter l'assistant.
  5. Enregistrez et exécutez le flux de données.

    La nouvelle entité de données est créée. Elle apparaît dans la page Entités de données.

Propriétés d'entité de données de modèle ML

L'onglet Propriétés de l'assistant Ajouter une entité de données fournit des options d'exploration de données que vous pouvez utiliser pour définir l'entité de données du modèle d'apprentissage automatique.

Cette rubrique suppose une connaissance préalable des concepts d'Oracle Machine Learning tels que les fonctions et les algorithmes d'exploration de données. Pour plus d'informations, reportez-vous au guide de l'API Oracle Machine Learning for SQL.

Vous pouvez utiliser l'une des options suivantes pour configurer les propriétés de l'entité de données ML Model :

  • Type d'apprentissage : Supervisé
    • Fonction : Classification
      • Arborescence de décision
      • Analyse sémantique explicite
      • Modèles linéaires généralisés
      • Naive Bayes
      • Forêt aléatoire
      • Réseau neuronal
      • Machines vectorielles de support
    • Fonction : Régression
      • Modèles linéaires généralisés
      • Réseau neuronal
      • Machines vectorielles de support
    • Fonction : Série temporelle
      • Lissage exponentiel
    • Fonction : Importance des attributs
      • Longueur minimale de la description
  • Type d'apprentissage : Non supervisé
    • Fonction : Association
      • Apriori
    • Fonction : Importance des attributs
      • Décomposition de la matrice CUR
    • Fonction : Détection d'anomalies
      • Machines de vecteur de support de classe unique
    • Fonction : clustering
      • Espérance-maximisation
      • Classification par partitionnement
      • Clusterisation du partitionnement orthogonal
    • Fonction : Extraction de caractéristiques
      • Analyse sémantique explicite
      • Factorisation matricielle non négative
      • Décomposition en valeurs singulières

Utilisation d'un modèle ML dans un flux de données

Vous pouvez utiliser la fonction de base de données Modèle de prévision pour exécuter des algorithmes de modèle d'apprentissage automatique sur les données source et charger la sortie dans une base de données cible.

Avant d'utiliser un modèle d'apprentissage automatique dans un flux de données, vous devez le créer. Pour obtenir des instructions sur la création d'un modèle de machine learning, reportez-vous à Création d'une entité de données de modèle de machine learning dans l'éditeur Data Flow.

Pour utiliser un modèle d'apprentissage automatique dans un flux de données :

  1. Suivez les instructions fournies dans Création d'un flux de données pour créer un flux de données.
  2. Dans l'éditeur de flux de données, faites glisser les tables que vous souhaitez utiliser comme source dans le flux de données et déposez-les sur le canevas de conception.
  3. Dans la barre d'outils Fonctions de base de données, cliquez sur Machine Learning et faites glisser le composant de transformation Modèle de prévision vers le canevas de conception.
  4. Cliquez sur le composant de transformation Modèle de prévision pour visualiser ses propriétés.
  5. Dans l'onglet Général, indiquez les informations suivantes :
  6. Dans l'onglet Mise en correspondance de colonnes, mettez en correspondance la colonne source à intégrer avec l'attribut INPUT de l'opérateur. La seule colonne disponible dans les mappings de colonne est prediction parameters. Faites glisser une colonne de texte des colonnes disponibles vers la colonne Expression.
  7. Faites glisser la table à utiliser comme cible dans le flux de données et déposez-la sur le canevas de conception.
  8. Enregistrez et exécutez le flux de données.

    Data Transforms exécute le modèle de prédiction sur les données source et écrit la sortie dans la table cible.