5 Mit Dateien arbeiten

Sie können Dateien in Volumes in AI Data Platform Workbench speichern, und Benutzer können diese Dateien in Ordnern in einem Volume organisieren. Mit AI Data Platform Workbench können Sie auf Daten zugreifen, die in Volumes und Workspaces gespeichert sind.

AI Data Platform Workbench unterstützt mehrere Methoden für den Zugriff auf Daten, die in Volumes gespeichert sind:
  • Pfade im POSIX-Stil: Ermöglichen Sie Benutzern den Zugriff auf Daten relativ zum Treiber-Root (/). Benutzer können Daten auf Volumes oder Workspace-Ordnern lesen/schreiben.
  • URI-ähnliche Pfade: Ermöglichen Sie Benutzern den Zugriff auf Daten mit einem URI-Schema. Beispiel: Wenn Sie Daten in OCI Object Storage lesen möchten, müssen Sie ein gültiges URI-Schema angeben, um diese Daten zu lesen/zu schreiben.

Hier finden Sie einige Beispiele:

Quelle Zugriffsmuster Beispiel
Volume POSIX Beispiel 1
df_csv = spark.read.csv("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/<<file_name>>.csv",
    header=True,
    inferSchema=True,
    sep=",")
Beispiel 2
import pandas as pd
df_panda_csv=pd.read_csv("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/<<file_name>>.csv", 
    header=0,
    sep=",")
Beispiel 3
import os
os.listdir("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/")
URI
df = spark.read.format("csv").option("header",True).load("file:///Volumes//<<catalog_name>>/<<schema_name>/<<volume_name>>/<<folder_path>>/<<file_name>>.csv")df.show()
Workspace POSIX Beispiel 1
df_csv = spark.read.csv("/Workspace/<<folder_path>>/<<file_name>>.csv", header=True, inferSchema=True, sep=",")
df_csv.show()
Beispiel 2
import pandas as pd
df_panda_csv=pd.read_csv("/Workspace/<<folder_path>>/<<file_name>>.csv", header=0, sep=",")
df_panda_csv.head()
Beispiel 3
import osos.listdir("/Workspace/<<folder_path>>/")
URI
spark.read.format("json").load("file:///Workspace/<<folder_path>>/<<file_name>>.json").show()
OCI Object Storage URI
df_csv = spark.read.csv("oci://<<bucket_name>>@<<namespace>>/<<folder/file>>",
    header=True,
    inferSchema=True,   
    sep=",")