PySpark

Saiba mais sobre ambientes conda PySpark.

PySpark 3.2 e Feature Store (versão 3.0)

Uma descrição do ambiente conda PySpark 3.2 e Feature Store on Python 3.8 (versão 3.0).

Liberado

9o de fevereiro de 2024

Descrição

O ambiente conda de Armazenamento de Recursos inclui um pacote de armazenamento de recursos que fornece uma solução centralizada para transformação e acesso de dados durante o treinamento e o atendimento, estabelecendo um pipeline padronizado para ingestão e consulta de dados e os comandos mágicos do serviço Data Flow para gerenciar o ciclo de vida de um cluster remoto da Sessão do Serviço Data Flow e executar remotamente trechos de código spark no cluster. Esse conda fornece suporte para a ingestão de dados no formato delta, tornando-o um cidadão de primeira classe no sistema. O armazenamento de recursos do Oracle Data Science oferece suporte ao DCAT Hive Metastore, que serve como um registro para metadados de esquema e permite que os usuários registrem e gerenciem os metadados associados aos esquemas.

Para começar a usar o ambiente de Armazenamento de Recursos, consulte o notebook iniciado, usando o Launcher.

Versão do Python

3.8

Slug fspyspark32_p38_cpu_v3
Caminho do Object Storage O caminho do serviço Object Storage pode ser encontrado no Explorador de Ambientes em uma sessão de notebook criada no realm que você está usando. O caminho é específico do realm.

Bibliotecas Principais

  • Sparkmagic do Serviço Data Flow (1.0.14)
  • oracle-ads(v2.10.0)
  • oraclejdk (v8)
  • pyspark (v3.2.1)
  • sparksql-magic (v0.0.3)
  • oracle-ml-insights (v1.0.4)
  • spark-nlp (v4.2.1)
  • transformadores (v4.32.1)
  • langchain (v0.0.267)

Para obter uma lista completa de bibliotecas Python pré-instaladas, consulte fspyspark32_p38_cpu_v3.txt.

PySpark 3.5 and Data Flow para CPU com Python 3.11 (versão 1.0)
PySpark 3.2 and Data Flow para CPU com Python 3.8 (versão 3.0)
PySpark 3.2 and Data Flow para CPU com Python 3.8 (versão 2.0)