PySpark

Saiba mais sobre ambientes conda PySpark.

PySpark 3.2 e Feature Store (versão 3.0)

Uma descrição do ambiente conda PySpark 3.2 e Feature Store on Python 3.8 (versão 3.0).


Liberado	9o de fevereiro de 2024
Descrição	O ambiente conda de Armazenamento de Recursos inclui um pacote de armazenamento de recursos que fornece uma solução centralizada para transformação e acesso de dados durante o treinamento e o atendimento, estabelecendo um pipeline padronizado para ingestão e consulta de dados e os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Esse conda fornece suporte para a ingestão de dados no formato delta, tornando-o um cidadão de primeira classe no sistema. O armazenamento de recursos do Oracle Data Science oferece suporte ao DCAT Hive Metastore, que serve como um registro para metadados de esquema e permite que os usuários registrem e gerenciem os metadados associados aos esquemas. Para começar a usar o ambiente de Armazenamento de Recursos, consulte o notebook iniciado, usando o Launcher.
Versão do Python	3.8
Slug	`fspyspark32_p38_cpu_v3`
Caminho do Object Storage	O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm.
Bibliotecas Principais	Sparkmagic do Serviço Data Flow (1.0.14) oracle-ads(v2.10.0) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) oracle-ml-insights (v1.0.4) spark-nlp (v4.2.1) transformadores (v4.32.1) langchain (v0.0.267) Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte fspyspark32_p38_cpu_v3.txt.

PySpark 3.5 and Data Flow para CPU com Python 3.11 (versão 1.0)

Uma descrição do ambiente conda PySpark 3.5 and Data Flow para CPU com Python 3.11 (versão 1.0).


Liberado	setembro de 25, 2024
Descrição	Esse ambiente conda inclui os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Use o PySparkSQL para analisar dados estruturados e semiestruturados que são armazenados no Object Storage. O PySpark utiliza todo o poder de uma sessão de notebook usando computação paralela. O serviço Data Flow também é integrado ao Metastore do Data Catalog Hive. Para começar a usar este ambiente conda, consulte o notebook de Conceitos Básicos, usando o Launcher.
Versão do Python	3.11
Caminho do Object Storage	O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm.
Slug	`pyspark35_p311_cpu_x86_64_v1`
Bibliotecas Principais	Sparkmagic do Serviço Data Flow (1.0.88) oracle-ads(2.11.17 oraclejdk (11) pyspark (3.5.0) python (3.11) sparksql-magic (0.0.3) spark-nlp (v5.3.3) Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte pyspark35_p311_cpu_v1.txt.

PySpark 3.2 and Data Flow para CPU com Python 3.8 (versão 3.0)

Uma descrição do ambiente conda PySpark 3.2 and Data Flow para CPU com Python 3.8 (versão 3.0).


Liberado	Julho de 10, 2023
Descrição	Esse ambiente conda inclui os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Esse ambiente conda permite que os cientistas de dados utilizem o Apache Spark, incluindo os algoritmos de machine learning em MLlib. Use PySparkSQL para analisar armazenamentos de dados estruturados e semiestruturados no Object Storage. O PySpark utiliza todo o poder de uma sessão de notebook usando computação paralela. Usar PySparkSQL para analisar dados estruturados e semiestruturados armazenados no serviço Object Storage Data Flow também é integrado ao Metastore do Hive do serviço Data Catalog Para começar a usar este ambiente conda, consulte o notebook de Conceitos Básicos, usando o Launcher.
Versão do Python	3.8
Caminho do Object Storage	O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm.
Slug	`pyspark32_p38_cpu_v3`
Bibliotecas Principais	Sparkmagic do Serviço Data Flow (1.0.14) oracle-ads(v2.8.7) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) spark-nlp (v4.2.1) Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte pyspark32_p38_cpu_v3.txt.

PySpark 3.2 and Data Flow para CPU com Python 3.8 (versão 2.0)

Uma descrição do ambiente conda PySpark 3.2 and Data Flow para CPU com Python 3.8 (versão 2.0).


Liberado	Dezembro de 1, 2022
Descrição	Esse ambiente conda inclui os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Esse ambiente conda permite que os cientistas de dados utilizem o Apache Spark, incluindo os algoritmos de machine learning em MLlib. Use PySparkSQL para analisar armazenamentos de dados estruturados e semiestruturados no Object Storage. O PySpark utiliza todo o poder de uma sessão de notebook usando computação paralela. Usar PySparkSQL para analisar dados estruturados e semiestruturados armazenados no serviço Object Storage Data Flow também é integrado ao Metastore do Hive do serviço Data Catalog Para começar a usar este ambiente conda, consulte o notebook de Conceitos Básicos, usando o Launcher.
Versão do Python	3.8
Caminho do Object Storage	O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm.
Slug	`pyspark32_p38_cpu_v2`
Bibliotecas Principais	Sparkmagic do Serviço Data Flow (1.0.7.e08b59192e8) oracle-ads(v2.6.8) oraclejdk (v8) pyspark (v3.2.1) sparksql-magic (v0.0.3) spark-nlp (v4.2.1) Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte pyspark32_p38_cpu_v2.txt.

Documentação do Oracle Cloud Infrastructure

PySpark