5 Trabalhar com Arquivos

Você pode armazenar arquivos em volumes no AI Data Platform Workbench e os usuários podem organizar esses arquivos em pastas dentro de um volume. O AI Data Platform Workbench fornece várias maneiras de acessar dados armazenados em volumes e espaços de trabalho.

O AI Data Platform Workbench suporta vários métodos para acessar dados armazenados em volumes:
  • Caminhos no estilo POSIX: permitem que os usuários forneçam acesso aos dados relativos à raiz do driver (/). Os usuários podem ler/gravar dados em volumes ou pastas do espaço de trabalho.
  • Caminhos de estilo URI: permitem que os usuários forneçam acesso aos dados usando um esquema de URI. Por exemplo, se você quiser ler dados no OCI Object Storage, forneça um esquema de URI válido para ler/gravar esses dados.

Seguem alguns exemplos:

Origem Padrão de Acesso Exemplo
Volume POSIX Exemplo 1
df_csv = spark.read.csv("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/<<file_name>>.csv",
    header=True,
    inferSchema=True,
    sep=",")
Exemplo 2
import pandas as pd
df_panda_csv=pd.read_csv("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/<<file_name>>.csv", 
    header=0,
    sep=",")
Exemplo 3
import os
os.listdir("/Volumes/<<catalog_name>>/<<schema_name>>/<<volume_name>>/")
URI
df = spark.read.format("csv").option("header",True).load("file:///Volumes//<<catalog_name>>/<<schema_name>/<<volume_name>>/<<folder_path>>/<<file_name>>.csv")df.show()
Espaço de Trabalho POSIX Exemplo 1
df_csv = spark.read.csv("/Workspace/<<folder_path>>/<<file_name>>.csv", header=True, inferSchema=True, sep=",")
df_csv.show()
Exemplo 2
import pandas as pd
df_panda_csv=pd.read_csv("/Workspace/<<folder_path>>/<<file_name>>.csv", header=0, sep=",")
df_panda_csv.head()
Exemplo 3
import osos.listdir("/Workspace/<<folder_path>>/")
URI
spark.read.format("json").load("file:///Workspace/<<folder_path>>/<<file_name>>.json").show()
OCI Object Storage URI
df_csv = spark.read.csv("oci://<<bucket_name>>@<<namespace>>/<<folder/file>>",
    header=True,
    inferSchema=True,   
    sep=",")