Conceitos do Serviço Data Flow

A compreensão desses conceitos é essencial para o uso do serviço Data Flow.

Aplicativos de Fluxo de Dados
Um Aplicativo é um modelo de aplicativo Spark infinitamente reutilizável que consiste em um aplicativo Spark, suas dependências, parâmetros padrão e uma especificação de recurso de runtime padrão. Depois que um desenvolvedor cria um Aplicativo do serviço Data Flow, qualquer pessoa pode usá-lo sem se preocupar com as complexidades de implantá-lo, configurá-lo ou executá-lo.
Biblioteca do Serviço Data Flow
A Biblioteca é o repositório central de Aplicativos do Data Flow. Qualquer pessoa pode procurar, pesquisar e executar aplicativos publicados na Biblioteca, sujeito a ter as permissões corretas no sistema do serviço Data Flow.
Execuções de Fluxo de Dados
Sempre que um aplicativo do serviço Data Flow é executado, uma Execução é criada. A Execução do serviço Data Flow captura a saída, os logs e as estatísticas do Aplicativo que são automaticamente armazenadas de forma segura. A saída é salva para que possa ser exibida por qualquer pessoa com as permissões corretas usando a interface do usuário ou a API REST. As execuções fornecem acesso seguro à Interface de Usuário do Spark para depuração e diagnóstico.
Pools do Serviço Data Flow
Um Pool de Fluxos de Dados é um grupo pré-configurado de recursos de Computação que pode ser usado para executar vários dados do Spark e cargas de trabalho de machine learning, incluindo batch, streaming e interativos. Os Pools de Fluxo de Dados podem ser usados em muitos lotes de Fluxo de Dados, Streaming e cargas de trabalho de Sessão por vários usuários ao mesmo tempo no mesmo tenant.
Computação Elástica
Toda vez que você executa um aplicativo do serviço Data Flow, você decide como deseja que ele seja. O serviço Data Flow aloca suas VMs, executa seu job, captura com segurança toda a saída e faz shutdown do cluster. Você não tem nada para manter no serviço Data Flow. Os clusters só são executados quando há trabalho real a fazer.
Armazenamento Elástico
O serviço Data Flow funciona com o serviço Oracle Cloud Infrastructure Object Storage. Para obter mais informações, consulte a Visão Geral do Serviço Object Storage.
Rede Privada
Você pode configurar seu Aplicativo Data Flow para acessar origens de dados hospedadas em redes privadas. Você deverá criar um ponto final privado para que seu Aplicativo use, se ainda não existir um.
Segurança
O serviço Data Flow é integrado com o Oracle Cloud Infrastructure Identity and Access Management (IAM) para autenticação e autorização. Seus aplicativos Spark são executados em nome da pessoa que os inicia. Isso significa que o aplicativo Spark tem os mesmos privilégios que o usuário final possui. Você não precisa usar credenciais para acessar nenhum sistema compatível com o IAM. Além disso, o serviço Data Flow se beneficia de todos os outros atributos de segurança do Oracle Cloud Infrastructure, incluindo a criptografia transparente de dados em armazenamento e em movimento.
Administrador de Serviço
Consulte Sobre Atribuições de Administrador de Serviço para obter mais informações sobre atribuições de administrador.
Administrador de Contas
O Administrador da Conta cria uma conta para cada usuário que precisa de acesso ao serviço.
Controles do Administrador
O serviço Data Flow permite que você defina limites de serviço e crie administradores que tenham controle total de todos os aplicativos e execuções. Você fica no controle independentemente de quantos usuários tem.
Apache Spark
O Apache Spark é um mecanismo de análise unificado para processamento de big data, com módulos integrados para streaming, SQL, aprendizado de máquina e processamento de gráfico.
Aplicativo Spark
Um Aplicativo Spark usa a API do Spark para executar tarefas de processamento de dados distribuídos. Os Aplicativos Spark podem ser gravados em várias linguagens, incluindo Java, Python e muito mais. Os Aplicativos Spark se manifestam como arquivos, tal como arquivos JAR, executados na estrutura do Spark.
Interface de Usuário do Spark
A Interface de Usuário do Spark é fornecida no Apache Spark e é uma ferramenta importante para a depuração e o diagnóstico de aplicativos Spark. Você pode acessar a Interface de Usuário do Spark para qualquer Execução do serviço Data Flow, sujeita às políticas de autorização da Execução.
Logs do Spark
O Spark gera arquivos de Log que são úteis para depuração e diagnóstico. Cada Execução do Serviço Data Flow armazena automaticamente arquivos de log que você pode acessar usando a UI ou a API, sujeitos às políticas de autorização da Execução.
Logs Melhorados
Logs do driver e do executor, StdOut e StdErr, fornecidos pelo Oracle Cloud Infrastructure Logging. opcional se você usá-los.