PySpark
Saiba mais sobre ambientes conda PySpark.
Uma descrição do ambiente conda PySpark 3.2 e Feature Store on Python 3.8 (versão 3.0).
Liberado |
9o de fevereiro de 2024 |
---|---|
Descrição |
O ambiente conda de Armazenamento de Recursos inclui um pacote de armazenamento de recursos que fornece uma solução centralizada para transformação e acesso de dados durante o treinamento e o atendimento, estabelecendo um pipeline padronizado para ingestão e consulta de dados e os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Esse conda fornece suporte para a ingestão de dados no formato delta, tornando-o um cidadão de primeira classe no sistema. O armazenamento de recursos do Oracle Data Science oferece suporte ao DCAT Hive Metastore, que serve como um registro para metadados de esquema e permite que os usuários registrem e gerenciem os metadados associados aos esquemas. Para começar a usar o ambiente de Armazenamento de Recursos, consulte o notebook iniciado, usando o Launcher. |
Versão do Python |
3.8 |
Slug | fspyspark32_p38_cpu_v3 |
Caminho do Object Storage | O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm. |
Bibliotecas Principais |
Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte fspyspark32_p38_cpu_v3.txt. |
Uma descrição do ambiente conda PySpark 3.5 and Data Flow para CPU com Python 3.11 (versão 1.0).
Liberado |
setembro de 25, 2024 |
---|---|
Descrição |
Esse ambiente conda inclui os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Use o PySparkSQL para analisar dados estruturados e semiestruturados que são armazenados no Object Storage. O PySpark utiliza todo o poder de uma sessão de notebook usando computação paralela. O serviço Data Flow também é integrado ao Metastore do Data Catalog Hive. Para começar a usar este ambiente conda, consulte o notebook de Conceitos Básicos, usando o Launcher. |
Versão do Python |
3.11 |
Caminho do Object Storage | O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm. |
Slug |
|
Bibliotecas Principais |
Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte pyspark35_p311_cpu_v1.txt. |
Uma descrição do ambiente conda PySpark 3.2 and Data Flow para CPU com Python 3.8 (versão 3.0).
Liberado |
Julho de 10, 2023 |
---|---|
Descrição |
Esse ambiente conda inclui os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Esse ambiente conda permite que os cientistas de dados utilizem o Apache Spark, incluindo os algoritmos de machine learning em MLlib. Use PySparkSQL para analisar armazenamentos de dados estruturados e semiestruturados no Object Storage. O PySpark utiliza todo o poder de uma sessão de notebook usando computação paralela. Usar PySparkSQL para analisar dados estruturados e semiestruturados armazenados no serviço Object Storage Data Flow também é integrado ao Metastore do Hive do serviço Data Catalog Para começar a usar este ambiente conda, consulte o notebook de Conceitos Básicos, usando o Launcher. |
Versão do Python |
3.8 |
Caminho do Object Storage | O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm. |
Slug |
|
Bibliotecas Principais |
Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte pyspark32_p38_cpu_v3.txt. |
Uma descrição do ambiente conda PySpark 3.2 and Data Flow para CPU com Python 3.8 (versão 2.0).
Liberado |
Dezembro de 1, 2022 |
---|---|
Descrição |
Esse ambiente conda inclui os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Esse ambiente conda permite que os cientistas de dados utilizem o Apache Spark, incluindo os algoritmos de machine learning em MLlib. Use PySparkSQL para analisar armazenamentos de dados estruturados e semiestruturados no Object Storage. O PySpark utiliza todo o poder de uma sessão de notebook usando computação paralela. Usar PySparkSQL para analisar dados estruturados e semiestruturados armazenados no serviço Object Storage Data Flow também é integrado ao Metastore do Hive do serviço Data Catalog Para começar a usar este ambiente conda, consulte o notebook de Conceitos Básicos, usando o Launcher. |
Versão do Python |
3.8 |
Caminho do Object Storage | O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm. |
Slug |
|
Bibliotecas Principais |
Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte pyspark32_p38_cpu_v2.txt. |