5 Utilisation des fichiers

Vous pouvez stocker des fichiers dans des volumes dans AI Data Platform Workbench et les utilisateurs peuvent organiser ces fichiers dans des dossiers au sein d'un volume. AI Data Platform Workbench vous offre plusieurs moyens d'accéder aux données stockées dans des volumes et des espaces de travail.

AI Data Platform Workbench prend en charge plusieurs méthodes pour accéder aux données stockées dans des volumes :
  • Chemins de type POSIX : permettent aux utilisateurs d'accéder aux données relatives à la racine du pilote (/). Les utilisateurs peuvent lire/écrire des données dans des volumes ou des dossiers d'espace de travail.
  • Chemins de type URI : autorisez les utilisateurs à fournir un accès aux données à l'aide d'un modèle d'URI. Par exemple, si vous voulez lire des données dans OCI Object Storage, vous devez fournir un modèle d'URI valide pour lire/écrire ces données.

Voici quelques exemples :

Source Modèle d'accès Exemple
Volume POSIX Exemple 1
df_csv = spark.read.csv("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/<<file_name>>.csv",
    header=True,
    inferSchema=True,
    sep=",")
Exemple 2
import pandas as pd
df_panda_csv=pd.read_csv("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/<<file_name>>.csv", 
    header=0,
    sep=",")
Exemple 3
import os
os.listdir("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/")
URI
df = spark.read.format("csv").option("header",True).load("file:///Volumes//<<catalog_name>>/<<schema_name>/<<volume_name>>/<<folder_path>>/<<file_name>>.csv")df.show()
Espace de travail POSIX Exemple 1
df_csv = spark.read.csv("/Workspace/<<folder_path>>/<<file_name>>.csv", header=True, inferSchema=True, sep=",")
df_csv.show()
Exemple 2
import pandas as pd
df_panda_csv=pd.read_csv("/Workspace/<<folder_path>>/<<file_name>>.csv", header=0, sep=",")
df_panda_csv.head()
Exemple 3
import osos.listdir("/Workspace/<<folder_path>>/")
URI
spark.read.format("json").load("file:///Workspace/<<folder_path>>/<<file_name>>.json").show()
OCI Object Storage URI
df_csv = spark.read.csv("oci://<<bucket_name>>@<<namespace>>/<<folder/file>>",
    header=True,
    inferSchema=True,   
    sep=",")