Sobre o Streaming

Você pode processar dados de streaming ou dados produzidos continuamente quase em tempo real no Oracle AI Data Platform Workbench usando o recurso Apache Spark Structured Streaming.

Tanto notebooks quanto workflows suportam streaming estruturado do Apache Spark. Você pode usar as seguintes origens e sumidouros para ler dados de stream, gravar dados de stream e para locais de checkpoint.

Tabela 16-1 Origens e Pias Suportadas

Origem ou Dissipador Suportado?
Caminho do volume (/Volume/bronze/bucket1) Suportado para todos os formatos
Caminho do espaço de trabalho (/Workspace/folder1/) Suportado para todos os formatos
Tabelas em catálogos com três nomes de partes (catalog.schema.table) Suportado somente para formato Delta

Não suportado para formatos Parquet, CSV, JSON, ORC

Exemplo 1: Código suportado

  • streaming_df = spark.readStream.format("delta").table('stdcatalog.stdschema.deltatable')
  • streaming_df.writeStream.format("delta").outputMode("append").option("checkpointLocation", "/Volumes/checkpoints1/").toTable("stdcatalog.stdschema.deltatable")

Exemplo 2: código não suportado

  • spark.readStream.option("withEventTimeOrder", "true").format("format") .table("stdcatalog.stdschema.samplecsv")
Kafka Suportado para qualquer fluxo compatível com Kafka sem convenção de nomeação em três partes

Não suportado para catálogo baseado no Kafka após convenção de nomeação em três partes)

Serviço OCI Streaming Suportado
Caminho do OCI Object Storage (usando OCI://) Não Suportado
Oracle Autonomous AI Lakehouse, Oracle AI Database, Oracle Autonomous AI Transaction Processing Não suportado para streaming (readStream ou writeStream)

Streaming Estruturado Usando Notebooks

Você pode gravar código Python para processar dados de fluxo em um notebook. Os caminhos de volume ou de espaço de trabalho são válidos como um local de checkpoint, mas os caminhos de Armazenamento de objetos (formato oci://) não são suportados como um local de checkpoint. Recomendamos o uso de caminhos de volume como um local de checkpoint.


Exemplo de código de streaming em uma célula de notebook do AI Data Platform Workbench


Exemplo de código Python usado para processar dados de fluxo em um notebook AI Data Platform Workbench

Você pode ver eventos relacionados ao streaming do Apache Spark, como taxa de entrada, taxa de processamento e duração do batch na guia Painel de Controle do seu notebook ao executar o código de streaming.


Guia Painel de controle em um notebook aberto para exibir dados de streaming

Você também pode exibir os eventos brutos relacionados ao streaming na guia Dados Brutos enquanto desenvolve seu código de forma incremental.


Guia Dados Brutos aberta em um notebook exibindo eventos relacionados ao streaming