Sobre Fluxos de Dados
Um fluxo de dados define como os dados são movidos e transformados entre diferentes sistemas.
Quando você executa um fluxo de dados, o Data Transforms usa as junções, os filtros, os mapeamentos e as restrições para transformar os dados de origem e carregá-los nas tabelas de destino. Observe que você só pode executar um fluxo de execução por vez. Não é possível colocar vários fluxos em um Fluxo de Dados e um fluxo não pode divergir em vários fluxos.
Tópicos
- Criar um Serviço Data Flow
Crie fluxos de dados para carregar dados de uma conexão de origem, executar transformações e mover os dados para um banco de dados de destino. - Sobre o Editor de Fluxo de Dados
O editor de fluxo de dados é dividido em cinco partes, o Painel Entidade de Dados, a Barra de Ferramentas Funções do Banco de Dados, a Tela de Design, o Painel Propriedades e o Painel Status. - Funções de Banco de Dados Suportadas
O Oracle Data Transforms suporta várias funções de banco de dados que você pode arrastar e soltar na Tela de Design para conectar componentes em um fluxo de dados. - Adicionar Componentes
Adicione as entidades de dados e as funções de banco de dados à Tela de Design e conecte-as em uma ordem lógica para concluir seus fluxos de dados. - Usar Vetor de Incorporação de Texto em um Fluxo de Dados
As Transformações de Dados suportam o uso de tipos de dados vetoriais e vetores de incorporação em um fluxo de dados. Atualmente, o Data Transforms se integra ao serviço OCI Generative AI para converter texto de entrada em incorporações de vetores que você pode usar para análise e pesquisas de dados. - Propriedades do Componente
O Painel Propriedades exibe várias configurações para componentes selecionados na Tela de Design. - Mapear Colunas de Dados
Quando você conecta a entidade de dados de origem à entidade de dados de destino, os nomes das colunas são automaticamente mapeados pelos nomes das colunas. Você tem a opção de mapear as colunas por Posição ou por Nome ou mapear as colunas manualmente usando o Editor de Expressão. - Validar e Executar um Fluxo de Dados
Depois que seus mapeamentos estiverem prontos, você poderá continuar a validar e executar o fluxo de dados.
Tópico pai: Página Transformações de Dados
Criar um Fluxo de Dados
Crie fluxos de dados para carregar dados de uma conexão de origem, executar transformações e mover os dados para um banco de dados de destino.
Você pode criar fluxos de dados de uma das seguintes maneiras:
O fluxo de dados recém-criado é exibido na página Fluxos de Dados do projeto associado. Clique no ícone Ações () ao lado do fluxo de dados selecionado para editá-lo, renomeá-lo, copiá-lo, alterar a pasta, iniciá-lo, exportá-lo ou excluí-lo.
Na página Projects
Para criar um fluxo de dados na página Projetos,
- Na página Projetos, clique em Criar Serviço Data Flow.
A página Criar Fluxo de Dados é exibida:
- No campo Nome, informe um nome para o novo fluxo de dados.
- Selecione Criar Novo Projeto, se quiser criar uma nova pasta de projeto para o fluxo de dados recém-criado.
- Caso contrário, clique em Adicionar a Projetos Existentes, se quiser adicionar o fluxo de dados recém-criado a uma pasta de projeto existente.
- Se você tiver selecionado Create New Project para a opção anterior, no campo Project Name, informe o nome do projeto recém-criado.
- Caso contrário, se você tiver selecionado Adicionar a Projetos Existentes para a opção anterior, selecione o projeto necessário na seta suspensa Nome do Projeto.
- No campo Descrição, informe uma descrição para o fluxo de dados recém-criado.
- Clique em Criar.
Na página Fluxos de Dados de um projeto
Para criar um fluxo de dados na página Fluxos de Dados de um projeto,
- Na página Projetos, clique no bloco do projeto para o qual deseja criar um novo fluxo de dados. A página Detalhes do Projeto é exibida.
- Na página Fluxos de Dados, clique em Criar Fluxo de Dados.
- Forneça o Nome e a Descrição do novo fluxo de dados.
- Clique em Próximo.
- Para definir sua conexão de origem, na lista drop-down Conexão, selecione a conexão necessária da qual você deseja adicionar as entidades de dados.
- Na lista drop-down Esquema, todos os esquemas correspondentes à conexão selecionada são listados em dois grupos:
- Esquema existente (aqueles que você importou para o Oracle Data Transforms) e
- Novo Esquema de Banco de Dados (aqueles que você ainda não importou).
Na lista drop-down, selecione o esquema que deseja usar. Para conexões do Oracle Object Storage, a lista drop-down Esquema lista o nome do bucket que você especificou no URL quando criou a conexão.
- Clique em Salvar.
Aparece o Editor de Fluxo de Dados que permite criar um novo fluxo de dados.
Da Home page
Para criar um fluxo de dados na Home page,
- Na Home page, clique em Transformar Dados. A página Criar Fluxo de Dados é exibida.
- Forneça o Nome e a Descrição do novo fluxo de dados.
- Selecione um nome de projeto no menu suspenso. Como alternativa, clique no ícone + para criar um projeto.
- Clique em Próximo.
- Na lista drop-down Conexão, selecione a conexão necessária na qual você deseja adicionar as entidades de dados. Como alternativa, clique no ícone + para criar uma nova conexão.
- Na lista drop-down Esquema, todos os esquemas correspondentes à conexão selecionada são listados em dois grupos:
- Esquema existente (aqueles que você importou para o Oracle Data Transforms) e
- Novo Esquema de Banco de Dados (aqueles que você ainda não importou).
Na lista drop-down, selecione o esquema que deseja usar.
- Clique em Salvar.
Tópico principal: Sobre Fluxos de Dados
Sobre o Editor de Fluxo de Dados
O editor de fluxo de dados é dividido em cinco partes, o Painel Entidade de Dados, a Barra de Ferramentas Funções do Banco de Dados, a Tela de Design, o Painel Propriedades e o Painel Status.
- Painel Entidades de Dados: O painel entidade de dados exibe as Entidades de Dados que estão disponíveis para uso em seus fluxos de Dados. A lista exibida pode ser filtrada usando os campos Nome e Tags. O painel inclui opções que permitem adicionar esquemas, importar entidades de dados, remover qualquer um dos esquemas associados ao fluxo de dados e atualizar entidades de dados. Consulte Adicionar Componentes para obter informações sobre como usar essas opções.
- Barra de Ferramentas de Funções do Banco de Dados: A barra de ferramentas Funções do Banco de Dados exibe as funções do banco de dados que podem ser usadas em seus fluxos de dados. Assim como as Entidades de Dados, você pode arrastar e soltar as ferramentas de Banco de Dados que deseja usar na tela de design. Consulte Funções de Banco de Dados Suportadas para obter mais informações.
- Design Canvas: A tela de design é onde você cria sua lógica de transformação. Depois de adicionar as Entidades de Dados e as Funções de Banco de Dados à tela de design, você poderá conectá-las em uma ordem lógica para concluir seus fluxos de dados.
- Painel de Propriedades: O painel de propriedades exibe as propriedades do objeto selecionado na tela de design. O Painel Propriedades é agrupado em quatro Guias. Geral, Atributos, Visualizar Dados, Mapeamento de Colunas e Opções. Nem todas as guias estão disponíveis, pois elas variam de acordo com o objeto selecionado. Consulte Propriedades do Componente para saber mais sobre essas opções.
- Painel de Status: Quando você executa um fluxo de dados, o Painel de Status mostra o status do job que está sendo executado em segundo plano para concluir a solicitação. Você pode ver o status do job que está em execução no momento ou o status do último job. Para obter mais informações sobre o painel Status, consulte Monitorar Status de Cargas de dados, Fluxos de dados e Fluxos de trabalho.
Depois de projetar o fluxo de dados necessário,
- Clique em
para salvar o fluxo de dados criado/projetado.
- Clique em
para alinhar os nós do fluxo de dados projetado.
- Clique em
para executar o fluxo de dados criado.
- Clique em
para validar o fluxo de dados criado.
- Clique em
para maximizar ou minimizar o diagrama de fluxo de dados criado na tela de design.
Tópico principal: Sobre Fluxos de Dados
Funções de Banco de Dados Suportadas
O Oracle Data Transforms suporta várias funções de banco de dados que você pode arrastar e soltar na Tela de Design para conectar componentes em um fluxo de dados.
A barra de ferramentas Funções do Banco de Dados no editor do serviço Data Flow inclui as seguintes funções de banco de dados que podem ser usadas em seus fluxos de dados. Consulte Referência de Linguagem SQL do Oracle Database para saber mais sobre as funções do banco de dados.
- Transformação de Dados
Ela contém os seguintes componentes:
- Agregar
- Expressão
- Filtro
- Junção
- Distinto
- Consulta
- Definido
- Classificar
- Filtro de Subconsulta
- Função de Tabela
- Preparação de Dados
Ela contém os seguintes componentes:
- Limpeza de Dados
- Substituição
- Equi_Width Compartimento
- Compartimento Quantil
- Lead
- Atraso
- Substituir
- Aprendizado de Máquina
Ela contém os seguintes componentes:
- Previsão
- Modelo de Predição
- Detecção de Outlier
- Vetor de Incorporação de Texto
- Texto
Ela contém os seguintes componentes:
- CONTAGEM REGEXP
- INSTR REGEXP
- SUBST. REGEXP
- REGEXP - SUBSTITUIR
- Editar Similaridade de Distância
- Contém
- Oracle Spatial and Graph
Ela contém os seguintes componentes:
- Dimensão de Buffer
- Tolerância de Buffer
- Dimensão de Distância
- Tolerância de Distância
- Mais próximo
- Simplificar
- Ponto
- Ferramentas de código geográfico:
Observação
As Ferramentas de Código Geográfico a seguir só funcionam em ambientes que não sejam do Autonomous Database.- Geocodificação como Geometria
- Geocódigo
- Geocodificar Endereço
- Geocodificar Todos
- Geocodificar Endereço/Todos
- Geocodificação Reversa
Observação
A Ferramenta de Geocódigo a seguir só funciona em um ambiente do Autonomous Database.- Nuvem de Códigos Geográficos
- Junção Espacial
Tópico principal: Sobre Fluxos de Dados
Adicione Componentes
Adicione as entidades de dados e as funções de banco de dados ao Design Canvas e conecte-as em uma ordem lógica para concluir seus fluxos de dados.
- No painel Entidades de Dados, clique em Adicionar um Esquema para adicionar esquemas que contenham as entidades de dados que você deseja usar no fluxo de dados.
- Na página Adicionar um Esquema, selecione a conexão e o nome do esquema.
- Clique em Importar.
- Na página Importar Entidades de Dados, selecione o Tipo de Objetos que deseja importar. Escolha uma Máscara/filtro se não quiser importar todos os objetos do esquema e clique em Iniciar.
- O painel Entidades de Dados lista as entidades de dados importadas. O painel inclui várias opções que permitem fazer o seguinte:
- Atualizar Entidades de Dados – Clique em Atualizar ícone
para atualizar a lista exibida.
- Nome - Procure entidades de dados por nome.
- Tags - Filtre as entidades de dados pelo nome da tag usada.
- Importar Entidades de Dados - Clique com o botão direito do mouse no esquema para ver essa opção. Use esta opção para importar as entidades de dados.
- Remover Esquema - Clique com o botão direito do mouse na entidade de dados para ver essa opção. Use esta opção para remover o esquema da lista. Observe que essa opção não exclui o esquema; ela só remove a associação do esquema com esse fluxo de dados.
- Atualizar Entidades de Dados – Clique em Atualizar ícone
- Da mesma forma, adicione mais esquemas ao serviço Data Flow, se necessário.
- Arraste as Entidades de Dados necessárias que você deseja usar no fluxo de dados e solte-as na tela de design.
- Na barra de ferramentas Funções do Banco de Dados, arraste o componente de transformação que você deseja usar no fluxo de dados e solte-o na tela de design. Você pode usar variáveis no fluxo de dados. Consulte Usar Variáveis em um Fluxo de Dados para obter mais informações.
- Selecione um objeto na tela de design e arraste o ícone Conector (
) ao lado dele para conectar os componentes.
- Depois de salvar o fluxo de dados, pode haver um ícone de Transferência sobreposto em uma ou mais conexões do componente. Isso indica que o ODI detectou uma etapa adicional e é necessário mover os dados entre os servidores de dados. Você pode clicar neste Ícone para exibir as propriedades associadas a esta etapa.
Tópico principal: Sobre Fluxos de Dados
Usar Vetor de Incorporação de Texto em um Fluxo de Dados
O Data Transforms suporta o uso de vetores de tipo de dados vetorial e a incorporação de vetores em um fluxo de dados. Atualmente, o Data Transforms se integra ao serviço OCI Generative AI para converter texto de entrada em incorporações de vetores que você pode usar para análise e pesquisas de dados.
Para incorporação de texto, o Data Transforms suporta tanto o texto armazenado em uma coluna quanto os links http armazenados em uma coluna. Antes de usar vetores de incorporação em um fluxo de dados, você precisa fazer o seguinte:
- Crie uma conexão do Oracle Database 23ai. Consulte Trabalhar com Conexões para obter instruções genéricas sobre como criar uma conexão no serviço Data Transforms.
- Crie uma conexão da Oracle Cloud Infrastructure (OCI) Generative AI. Consulte Criar e usar uma Conexão do Oracle Cloud Infrastructure Generative AI.
Para usar incorporações de vetores em um fluxo de dados:
- Siga as instruções em Criar um Serviço Data Flow para criar um novo fluxo de dados.
- No Editor do Serviço Data Flow, clique em Adicionar um Esquema para definir sua conexão de origem. Na lista drop-down Conexão, selecione na lista drop-down a conexão do Oracle Database 23ai e o esquema que deseja usar. Clique em OK.
- Arraste as tabelas que você deseja usar como origem no fluxo de dados e solte-as na tela de design.
- Na barra de ferramentas Funções do Banco de Dados, clique em Machine Learning e arraste o componente de transformação Vetor de Incorporação de Texto para soltá-lo na tela de design.
- Clique no componente de transformação Vetor de Incorporação de Texto para exibir suas propriedades.
- Na guia Geral, especifique o seguinte:
- Serviço de IA - Selecione OCI Generative AI no menu suspenso.
- Conexão - A lista drop-down lista todas as conexões disponíveis para o Serviço AI selecionado. Selecione a conexão que deseja usar.
- Modelo de AI - A lista drop-down lista todos os modelos disponíveis para o Serviço e a Conexão de AI selecionados. Os seguintes modelos são listados:
- "cohere.embed-português-luz-v2.0"
- "cohere.embed-português-luz-v3.0"
- "cohere.embed-inglês-v3.0"
- "cohere.embed-multilingual-light-v3.0"
- "cohere.embed-multilingual-v3.0"
- Na guia Mapeamento de Coluna, mapeie a coluna de origem que deseja incorporar ao atributo INPUT do operador. A única coluna disponível nos mapeamentos de coluna é
input_text
. Arraste uma coluna de texto das colunas disponíveis para a coluna Expressão. Esses são os dados nos quais os vetores serão criados. - Arraste a tabela que você deseja usar como destino no fluxo de dados e solte-a na tela de design.
- Salve e execute o fluxo de dados.
As Transformações de Dados criarão vetores para cada uma das linhas na tabela de origem e gravarão isso na tabela de destino.
Tópico principal: Sobre Fluxos de Dados
Propriedades do Componente
O Painel Propriedades exibe várias configurações para componentes selecionados na Tela de Design.
Dependendo do componente selecionado, você pode ver qualquer um dos seguintes ícones:
- Geral (
) - Exibe o nome do componente com seus detalhes de conexão e esquema. Você pode editar algumas dessas propriedades.
- Atributos (
) - Exibe os detalhes de todos os atributos associados ao componente.
- Mapeamento de colunas (
) - Permite mapear todas as colunas automaticamente. Consulte Mapear Colunas de Dados para obter mais informações.
- Visualizar (
) - Exibe uma visualização do componente. Para tabelas Oracle, você também pode exibir as estatísticas da entidade de dados selecionada. Consulte Exibir Estatísticas de Entidades de Dados para obter detalhes sobre as informações estatísticas disponíveis.
- Opções (
) - Exibe opções como
- Truncar Tabela - Substitui qualquer conteúdo de tabela de destino existente por novos dados.
- Anexar - Insere registros do fluxo no destino. Os registros existentes não são atualizados.
- Incremental - Integra dados na tabela de destino comparando os registros do fluxo com os registros existentes e atualizando os registros quando seus dados associados não forem os mesmos. As que ainda não existem no alvo são inseridas.
A opção inclui um recurso de compactação automática que é definido como
True
por padrão. Para jobs de fluxo de dados que usam o modo Atualização Incremental para carregar dados em uma partição de destino Oracle compactada, o recurso Compactação automática recomprime as partições de destino modificadas após a conclusão bem-sucedida da carga. Para partições de tabela que não foram originalmente compactadas, a compactação é ignorada, independentemente de a compactação Automática estar definida como verdadeira.Observação
A opção de compactação Automática está disponível para o usuário ADMIN ou para um usuário com a atribuição DWROLE. Para fluxos de dados que têm usuários de esquema diferentes de ADMIN, você precisa designar o DWROLE ao usuário ou desativar a compactação Automática para evitar erros de execução.
Tópico principal: Sobre Fluxos de Dados
Mapear Colunas de Dados
Quando você conecta a entidade de dados de origem à entidade de dados de destino, os nomes das colunas são automaticamente mapeados pelos nomes das colunas. Você tem a opção de mapear as colunas por Posição ou por Nome ou mapear as colunas manualmente usando o Editor de Expressão.
Para mapear colunas por Posição ou por Nome:
- Selecione a Entidade de Dados de destino.
- Clique no ícone de seta presente no canto superior direito para expandir o Painel de Propriedades. Isso lhe dará mais espaço para trabalhar.
- No Painel de Propriedades, clique no ícone Mapeamento de Coluna (
).
- Para mapear as colunas por Posição ou por Nome, no menu drop-down Mapa Automático, selecione Por Posição ou Por Nome.
Para mapear as colunas manualmente:
- No menu drop-down Mapa Automático, selecione Limpar para limpar os mapeamentos existentes.
- Arraste e solte os atributos da árvore à esquerda para mapear com a coluna Expressão.
- Para editar uma expressão, clique no ícone Editar da respectiva coluna. O Editor de Expressão aparece permitindo que você execute as alterações necessárias (por exemplo, você pode apenas adicionar uma expressão-"UPPER" ou abrir o Editor de Expressão para editar a expressão).
Observação
Use o editor de expressão somente se tiver expressões complexas para uma determinada coluna. - Clique em OK.
Tópico principal: Sobre Fluxos de Dados
Validar e Executar um Fluxo de Dados
Depois que os mapeamentos estiverem prontos, você poderá continuar a validar e executar o fluxo de dados.
- Clique em Salvar.
Após salvar, se os dados precisarem ser preparados antes da transformação, o botão Transferir será adicionado a um ou mais links. Você pode clicar nesses botões para definir mais opções, se disponíveis.
- Clique no ícone Simulação de Código (
) se quiser verificar o código que será executado para concluir as tarefas executadas quando você executar o job de fluxo de dados. Os detalhes de origem e destino são exibidos em cores diferentes para facilitar a referência. Isso é útil se você quiser verificar se o mapeamento está correto antes de executar o job ou se o job falha. Observe que o código não pode ser usado para depuração. Para obter informações detalhadas sobre o job, consulte a página Detalhes do Job.
- Clique no ícone Validar (
) na barra de ferramentas acima da tela de design para validar o fluxo de dados.
- Após uma validação bem-sucedida, clique no ícone Executar (
) ao lado do ícone Validar para executar o fluxo de dados.
Se você tiver adicionado variáveis ao fluxo de dados, a página Valores da variável será exibida, exibindo a lista de variáveis que você adicionou ao fluxo de dados. Você pode optar por usar o valor atual, o valor padrão ou definir um valor personalizado para cada variável. Observe que o valor personalizado é aplicado somente à execução atual do fluxo de dados. O valor personalizado não persiste para nenhuma sessão subsequente.
É exibida uma mensagem que exibe o ID e o nome do Job de execução. Para verificar o status do fluxo de dados, consulte o painel Status à direita abaixo do Painel Propriedades. Para obter detalhes sobre o painel Status, consulte Monitorar Status de Cargas de dados, Fluxos de dados e Fluxos de trabalho. Esse painel também mostra o link para o ID do Job que você pode clicar para monitorar o andamento na página Jobs. Para obter mais informações, consulte Criar e Gerenciar Jobs.
Para fluxos de dados criados usando conexões do Oracle Object Storage, os dados do arquivo CSV de origem são carregados no Oracle Autonomous Database de destino. Você também pode exportar dados de uma tabela do Oracle Autonomous Database para um arquivo CSV no Oracle Object Storage.
Tópico principal: Sobre Fluxos de Dados