Utiliser un entrepôt avec lac de données avec base de données autonome avec intelligence artificielle

Découvrez les avantages d'utiliser un entrepôt avec lac de données avec une base de données autonome avec intelligence artificielle.

À propos des entrepôts avec une base de données autonome avec intelligence artificielle

Oracle Autonomous AI Database est une solution polyvalente pour s'adapter à tous les types de données et de charges de travail.

Autonomous AI Database fournit un stockage rentable, avec un coût par To comparable aux magasins d'objets, tout en prenant en charge divers types de données, tels que JSON, Graph et Vector. Avec Autonomous AI Database, les entreprises peuvent consolider leurs données sur une seule plateforme. Ils peuvent tirer parti des capacités convergées telles qu'Oracle Machine Learning (OML), Graph, Spatial, Vector et Blockchain pour gérer leurs données de manière complète.

Pour les entreprises qui ont déjà des entrepôts avec lac de données existants sur d'autres plateformes, Oracle Autonomous AI Database s'intègre de façon transparente, ce qui permet aux entreprises de profiter des fonctionnalités avancées d'Autonomous AI Database sans perturber leurs configurations actuelles.

Pour en savoir plus, essayez le LiveLabs titre Créer un entrepôt avec lac de données avec intelligence artificielle autonome.

Qu'est-ce qu'un Lakehouse?

Les entrepôts de données sont des référentiels centralisés conçus pour stocker de grandes quantités de données brutes dans leur format natif jusqu'à ce que les données soient nécessaires à l'analyse.

Elles sont très flexibles et évolutives. Elles complètent donc les entrepôts avec lac de données traditionnels en permettant aux organisations de stocker et de traiter divers types de données, notamment structurées, semi-structurées et non structurées.

Principaux attributs d'un entrepôt avec lac de données :
  • Ouvrir les formats de fichier et de table

    Les entrepôts de données stockent les données dans des formats de fichier ouverts tels que CSV, Parquet et des formats de table tels qu'Iceberg. Cela assure l'interopérabilité et la flexibilité du traitement des données en permettant à plusieurs moteurs d'écrire et de lire ces jeux de données.

  • Prise en charge de plusieurs moteurs de traitement de données

    Les entrepôts de données sont compatibles avec divers moteurs de traitement de données, tels qu'Apache Spark, Presto et Hive, permettant ainsi la diversité des charges de travail analytiques.

  • Schéma en lecture

    Les entrepôts de données utilisent souvent une approche de schéma en lecture, ce qui signifie qu'il n'est pas nécessaire de définir un schéma à l'avance. Cela permet une ingestion rapide des données, où les données peuvent être chargées sans structuration préalable, à l'instar des magasins d'objets qui "saisissent les données maintenant et posent des questions plus tard".

  • Prise en charge des données non structurées

    Au-delà des données structurées, les entrepôts de données peuvent stocker des données non structurées telles que des images (JPG), des documents (PDF, Word) et d'autres données binaires, offrant une solution de stockage complète.

Principales fonctionnalités d'entrepôt avec lac de données pour une base de données autonome avec intelligence artificielle

Oracle Autonomous AI Database est conçu pour prendre en charge les charges de travail d'entrepôt avec lac de données de façon transparente, éliminant ainsi le besoin de gestion ou d'installation. Il offre des capacités robustes pour gérer différents formats de données dans différents environnements en nuage, assurant ainsi des analyses de données flexibles et complètes.

Prêt pour les charges de travail d'entrepôt avec lac de données

Oracle Autonomous AI Database est entièrement prêt pour les charges de travail d'entrepôt avec lac de données prêtes à l'emploi, ne nécessitant aucun composant supplémentaire. Cette disponibilité s'étend aux principales tâches d'entrepôt avec lac de données telles que la transformation des données, la gestion des métadonnées et l'intégration aux outils populaires d'entrepôt avec lac de données, le tout dès le premier jour, sans configuration supplémentaire.

Cette préparation complète est ce qui distingue Autonomous AI Database, offrant une expérience intégrée et sans tracas qui accélère le délai d'obtention de renseignements pour les charges de travail d'entrepôt avec lac de données. Cela signifie que les utilisateurs peuvent immédiatement commencer à gérer les tâches d'entrepôt avec lac de données sans aucune configuration, ce qui en fait une véritable solution prête à l'emploi pour les environnements d'entrepôt avec lac de données. Cette capacité intégrée simplifie les opérations, réduit les coûts de maintenance et assure une fiabilité supérieure avec moins d'erreurs.

Autonomous AI Database fournit un ensemble d'outils pour tous les types d'utilisateur, des développeurs aux analystes d'affaires, afin que la plate-forme soit universelle et accessible.

Les développeurs peuvent utiliser des outils tels que l'API PL/SQL pour les opérations avancées, les scripts et l'automatisation, ce qui permet une intégration transparente avec les outils existants et la création de solutions de base de données personnalisées efficacement. Voir Informations de référence sur le type Autonomous AI Database Supplied Package pour plus d'informations.

Pour les utilisateurs professionnels, Data Studio peut être utilisé, une interface Web qui simplifie l'interaction, l'exploration et la visualisation des données. Data Studio permet aux utilisateurs non techniques d'obtenir des informations, de créer des rapports et de collaborer efficacement, réduisant ainsi la complexité et soutenant la prise de décision éclairée. Pour plus d'informations, voir Page Aperçu de Data Studio.

Soutien multi-Cloud Support

Pour les entreprises qui ont déjà des entrepôts avec lac de données sur d'autres plateformes, Autonomous AI Database s'intègre de façon transparente, ce qui permet aux entreprises de bénéficier de fonctionnalités avancées d'Autonomous AI Database sans perturber leurs configurations actuelles.

Fournissez un accès à la base de données autonome d'IA à votre entrepôt avec lac de données en accordant les privilèges et l'accès nécessaires à votre entrepôt avec lac de données pour être connecté à la base de données autonome d'IA. Une fois que vous avez fourni les données d'identification nécessaires, Autonomous AI Database peut se connecter aux entrepôts de données dans divers environnements en nuage, notamment AWS, Azure, Google Cloud et le magasin d'objets Oracle OCI.

Cela vous permet d'accéder à vos données et de les gérer en toute sécurité, en tirant parti des fonctions de sécurité natives de chaque fournisseur de services infonuagiques. Grâce à cette prise en charge multinuage, vous bénéficiez de la flexibilité nécessaire pour déployer et adapter votre entrepôt avec lac de données sur différentes plates-formes en nuage tout en conservant un environnement unifié et sécurisé.

Oracle Autonomous AI Database prend en charge la sécurité native pour d'autres nuages. Pour en savoir plus, voir Utiliser les noms de ressource Amazon (ARN) pour accéder aux ressources AWS, Utiliser le principal de service Azure pour accéder aux ressources Azure et Utiliser le compte de service Google pour accéder aux ressources de la plate-forme Google Cloud pour votre plate-forme en nuage correspondante.

Prise en charge du format de données de bout en bout

Oracle Autonomous AI Database est conçu avec la flexibilité nécessaire pour gérer un large éventail de formats de données, ce qui en fait une solution universelle pour diverses sources de données et charges de travail.

Que vos données résident dans des formats structurés, semi-structurés ou non structurés, Autonomous AI Database les prend en charge de façon transparente dans divers environnements en nuage. Cela permet aux entreprises d'ingérer, de stocker et d'analyser des données sans se soucier de la compatibilité des formats.

Autonomous AI Database fournit une prise en charge native des formats traditionnels tels que CSV et JSON, ainsi que des formats avancés tels qu'AVRO, Parquet et ORC. Pour plus d'informations, voir Interroger les données externes avec une base de données d'intelligence artificielle autonome. Autonomous AI Database prend en charge les formats de fichier suivants : CSV, JSON, XML, AVRO, ORC, Parquet, Delta Sharing, Iceberg, Word, PDF.

Avec la prise en charge supplémentaire du format de table Iceberg, Autonomous AI Database offre des capacités améliorées pour les environnements d'entrepôt avec lac de données à grande échelle. Iceberg permet des interrogations optimisées et hautes performances, un meilleur contrôle des versions et une gestion des données plus facile, ce qui en fait un bon ajustement pour les jeux de données volumineux et en évolution. Pour plus d'informations, voir Interroger les tables Apache Iceberg.

Fonctionnalités améliorées : Base de données d'IA autonome pour la gestion de données non structurées

Bien qu'Oracle Database soit reconnue pour son puissant traitement de données structurées et semi-structurées, Autonomous AI Database étend ses capacités pour gérer également des jeux de données non structurés.

Ces fonctionnalités comprennent la gestion et l'analyse d'un large éventail de formats tels que JPG, PDF, documents Word, etc. Grâce à ces avancées, Autonomous AI Database fournit une solution complète pour les entreprises qui s'occupent de sources de données non structurées.
  • Informations guidées par l'IA avec génération augmentée par extraction : La base de données autonome d'IA intègre des modèles d'IA avancés, ce qui permet la recherche vectorielle de données non structurées. Cela permet une récupération efficace des informations pertinentes dans des jeux de données massifs à l'aide de l'IA, améliorant ainsi la précision et la vitesse de recherche. Pour plus d'informations, voir Sélectionner l'IA avec génération augmentée de récupération (RAG).
  • Indexation en texte intégral : Autonomous AI Database prend en charge la création d'index en texte intégral sur des fichiers non structurés, ce qui permet d'effectuer des recherches de texte avancées sur des documents tels que des PDF, des fichiers Word, etc. Cette fonctionnalité améliore considérablement la façon dont le contenu non structuré peut être interrogé, indexé et analysé. Voir Utiliser la recherche en texte intégral sur les fichiers du stockage d'objets
  • Analyser et charger des données non structurées : Les fonctions améliorées d'analyse et d'ingestion de données de la base de données de l'IA autonome permettent aux utilisateurs de charger des données non structurées de façon transparente, en les transformant automatiquement en un format tabulaire, prêts à être chargés dans la base de données. Pour plus d'informations, voir Exécuter l'extraction de table à partir de l'image.
  • L'IA en tant que source de données (invite à table) : En tirant parti de l'IA, Autonomous AI Database permet une fonctionnalité d'invite à table, permettant aux utilisateurs de générer des données directement à partir des modèles d'IA et de les charger dans des tables. Cela ouvre la possibilité d'extraire des informations précieuses de résultats générés par l'IA et de les utiliser comme nouvelle source de données structurées. Voir Chargement de données à partir d'une source d'intelligence artificielle

Ces capacités étendues positionnent Autonomous AI Database comme un outil puissant pour traiter les demandes croissantes de données non structurées, tout en exploitant les solutions optimisées par l'IA, ce qui en fait une plateforme polyvalente et à l'épreuve du temps pour répondre aux défis modernes en matière de données.

Gestion flexible des métadonnées

Oracle Autonomous AI Database offre aux utilisateurs différentes façons de définir les métadonnées pour leurs jeux de données, ce qui rend la gestion des données plus adaptable et efficace.

  • Intégration des métadonnées par catalogue

    Les utilisateurs peuvent intégrer les métadonnées de divers catalogues dans une vue centralisée, ce qui facilite le contrôle et le maintien de la cohérence des données dans l'ensemble de l'organisation. Les catalogues pris en charge sont les suivants :

    • Catalogue de données OCI : Outil dans Oracle Cloud Infrastructure (OCI) qui aide les utilisateurs à détecter, organiser et gérer les ressources de données. Il offre une vue claire de toutes les ressources de données, ce qui aide les utilisateurs à maintenir la conformité, à assurer la qualité des données et à faciliter la collaboration entre les équipes. Pour plus d'informations, voir Exemple : MovieStream Scénario.

    • AWS Glue : Service ETL géré (extraire, transformer, charger) d'Amazon Web Services qui inclut un catalogue de données pour l'organisation et la gestion des métadonnées. Pour plus d'informations, voir Interroger des données externes à l'aide du catalogue de données de colle AWS.

  • Définition manuelle des métadonnées

    Les utilisateurs peuvent également définir des métadonnées directement au niveau de la table pour les jeux de données dans les magasins d'objets tels que le service de stockage d'objets pour Oracle Cloud Infrastructure (OCI) ou Amazon S3. Cela permet une organisation personnalisée des données pour des fichiers individuels ou des groupes de fichiers, adaptés aux exigences des utilisateurs. La base de données autonome d'IA peut également déduire automatiquement les métadonnées, telles que les noms de colonne et les types de données, pour gagner du temps et réduire les erreurs. Par exemple, lors du chargement d'un fichier CSV, le système peut détecter automatiquement les en-têtes en tant que noms de colonne et affecter des types de données appropriés tels que nombre ou varchar2 en fonction du contenu. Cela aide les utilisateurs à préparer rapidement leurs données à des fins d'analyse sans intervention manuelle, ce qui réduit le temps de configuration et réduit les risques d'erreur.

Prise en charge des métadonnées fédérées

Autonomous AI Database prend en charge un catalogue de métadonnées fédéré, ce qui permet aux utilisateurs d'unifier les métadonnées provenant de différentes sources dans une vue unique, avec une interface unifiée pour la gestion des métadonnées.

Cette approche simplifie la gestion des métadonnées dans divers environnements en connectant les sources de données sur plusieurs nuages et plates-formes. Que vous utilisiez des métadonnées basées sur un catalogue ou que vous les définissiez manuellement, toutes les informations sont disponibles dans un catalogue unifié pour faciliter la navigation. Par exemple, une organisation peut utiliser cette vue fédérée pour gérer les ressources de données d'AWS et d'Oracle Cloud, assurant ainsi une gouvernance uniforme et une détectabilité sur toutes les plates-formes.

Collaboration

Une fois l'analyse terminée, les utilisateurs doivent souvent partager leurs résultats avec d'autres utilisateurs. Oracle Autonomous AI Database facilite le partage en offrant plusieurs façons de collaborer et en offrant des avantages uniques par rapport aux autres bases de données, comme les caractéristiques de sécurité intégrées, les protocoles ouverts et une connectivité en nuage transparente.

Ces options sont conçues pour être flexibles et sécurisées, de sorte qu'elles répondent à différents besoins de collaboration :

  • Protocole de partage Delta : Permet de partager des données en dehors d'Oracle à l'aide d'un protocole ouvert appelé Delta Sharing. Il prend en charge le partage sécurisé des données avec des partenaires externes, sans nécessiter d'intégration complexe, ce qui le rend idéal pour les analyses multinuages et multiplateformes. De cette façon, les données peuvent être utilisées en douceur dans différents outils d'analyse qui ne font pas partie d'Oracle. Pour plus d'informations, voir Partager des versions de données à l'aide du service de stockage d'objets.

  • Liens vers le nuage : Vous pouvez partager des données entre différentes instances de base de données autonome avec des liens vers le nuage sécurisés. Par exemple, Cloud Links est particulièrement efficace pour connecter différentes bases de données. Cela garantit une disponibilité des données uniforme et réduit la latence pour les applications qui ont besoin d'un accès rapide et fiable aux données dans plusieurs bases de données, sans avoir à copier ni à dupliquer. Il permet une collaboration fluide pour les équipes qui sont dispersées et qui ont besoin de travailler ensemble. Voir Partager des données actives à l'aide de la connexion directe

  • Hyperliens de table : Vous pouvez partager des données directement en créant des URL spéciales qui donnent accès aux données sans avoir besoin d'une connexion distincte. Les utilisateurs peuvent contrôler les autorisations et définir les délais d'expiration de ces URL, ce qui garantit des options de partage sécurisées et flexibles. Cette fonction est spécialement conçue pour les clients REST. Pour plus d'informations, voir Créer un hyperlien de table pour une table ou une vue.

Compatibilité étendue avec les outils Oracle Database

L'environnement Autonomous AI Database est entièrement compatible avec un large éventail d'outils de base de données Oracle.

Tout outil que vous utilisez déjà pour interagir avec les bases de données Oracle, que ce soit pour la visualisation, l'analyse, l'ETC ou l'administration des données, peut également être utilisé de façon transparente pour analyser des jeux de données dans Autonomous AI Database. Cette compatibilité garantit une expérience fluide, permettant aux utilisateurs d'intégrer Autonomous AI Database dans leurs flux de travail existants sans avoir à adopter de nouveaux outils ou processus, maximisant ainsi l'efficacité et réduisant la courbe d'apprentissage.

Voir Page d'aperçu de Data Studio pour plus d'informations sur quelques-uns des outils disponibles pour les bases de données Oracle.

Performance

Autonomous AI Database comprend de nombreuses optimisations conçues spécifiquement pour l'interrogation des données stockées dans le magasin d'objets et l'utilisation de formats de table ouverts, comme Apache Iceberg.

Accélérateur de lac de données

Data Lake Accelerator est un service évolutif dynamique qui améliore considérablement les performances des interrogations en déchargeant les opérations d'analyse intensives, y compris le filtrage, la projection et la décompression de votre base de données autonome sur un groupe de ressources de calcul dédié. Ce service provisionne et ajoute dynamiquement des ECPU uniquement pendant la durée de l'exécution de l'interrogation, ce qui permet aux balayages volumineux de se terminer plus rapidement en parallélisant le traitement des données directement à la source, sans nécessiter le chargement des données dans la base de données. Une fois l'interrogation terminée, les ressources affectées sont automatiquement libérées, ce qui garantit une utilisation efficace basée sur la consommation. Pour plus d'informations, voir Data Lake Accelerator.

Mémoire cache de table externe

La mémoire cache de table externe vous permet de stocker localement les données externes fréquemment consultées. Lorsque vous utilisez le cache, les interrogations sur des tables externes peuvent extraire des données directement à partir de la base de données de l'IA autonome, ce qui les accélère considérablement. Vous n'avez pas besoin de modifier les instructions SQL ou les flux de travail existants pour bénéficier d'un accès plus rapide, car ce mécanisme de mise en cache est totalement transparent pour les applications. Vous pouvez créer une mémoire cache de table externe pour les tables externes partitionnées et non partitionnées créées sur les tables Parquet, ORC, AVRO, CSV et Iceberg. Pour plus d'informations, voir Utiliser la mémoire cache de table externe pour améliorer la performance des tables externes.

Partitionnement implicite

Le partitionnement implicite dans Autonomous AI Database reconnaît automatiquement les modèles d'attribution de nom de dossier et de fichier courants dans les chemins du magasin d'objets, par exemple '.../country=US/year=2024/month=01/'. La base de données traite ces conventions d'attribution de nom en tant que clés de partition, ce qui lui permet d'ignorer les fichiers et dossiers qui ne sont pas pertinents pour vos filtres d'interrogation. Cela offre des avantages pour l'élagage des partitions sans que vous ayez à définir manuellement des partitions dans le LDD de votre table ou à modifier votre structure de répertoires existante. Par conséquent, les interrogations balayent moins de données à partir du magasin d'objets et fournissent des résultats plus rapides, en particulier lors de l'utilisation de jeux de données volumineux. Pour plus d'informations, voir Interroger les tables externes avec partitionnement implicite.

Choisir la bonne fonction

Fonction Cas d'utilisation Volume de données

Mémoire cache de table externe

Utiliser pour les tableaux de bord répétés, interactifs ou programmés.

Moyen (Go à faible To)

Accélérateur de lac de données

Utilisez pour mettre à l'échelle des analyses poussées ou ad hoc sur des données étendues.

Très grande (To à Po)

Partitionnement implicite

Utilisez cette option pour interroger ou analyser des jeux de données volumineux organisés par modèles d'attribution de nom de dossier ou de fichier, par exemple, par date, région ou autres attributs, dans le magasin d'objets.

Moyen à grand (Go à To)

hybride

Mémoire cache de table externe pour mettre en mémoire cache les sous-ensembles de données fréquemment consultés (à chaud) et Data Lake Accelerator pour interroger les données historiques complètes.

Tous les volumes