Carregar

Você aprenderá sobre três opções de arquitetura e armazenamento intermediário para carregar dados do Oracle Cloud ERP no Snowflake.

Carregar Dados no Snowflake Usando Baixo Código

Essa arquitetura usa OCI GoldenGate e Oracle Data Transforms como as principais ferramentas de integração de dados. Use essa opção se você já estiver usando essas ferramentas e tiver pelo menos um Oracle Database em execução na OCI que possa ser usado como preparação para o Snowflake.



migrar-fa-snowflake-goldengate-data-int-oracle.zip

A opção usa o Oracle Data Transforms e o OCI GoldenGate como ferramentas principais de extração e replicação. Os dados são carregados primeiro em uma área intermediária do Oracle Database e depois no Snowflake. O conector GoldenGate-Snowflake tem diferentes opções de configuração. Essa arquitetura usa a configuração padrão. Os dados são atualizados no destino a cada 30 segundos. É tempo real na origem, mas quase tempo real no destino.

Siga o blog OCI GoldenGate Data Transforms extraindo dados do Oracle Fusion ERP para configurar o Oracle Data Transforms para extrair dados do Oracle Cloud ERP. No OCI GoldenGate, você precisa criar duas implantações. A primeira para a tecnologia Oracle em que uma extração é configurada para a lista de tabelas criadas pelo Oracle Data Transforms. A segunda implantação é para tecnologias de Big Data nas quais o Snowflake está incluído.

Revise este blog para Usar OCI GoldenGate para Snowflake Initial Load e Real-time Data Sync para configurar implantações e o processo de extração e replicação para Snowflake.

Essa arquitetura suporta os seguintes componentes:

  • Autonomous Data Warehouse

    O Oracle Autonomous Data Warehouse é um serviço de banco de dados autônomo, autoprotegido e autorreparável otimizado para cargas de trabalho de data warehousing. Você não precisa configurar nem gerenciar nenhum hardware, nem instalar nenhum software. O Oracle Cloud Infrastructure trata da criação, backup, aplicação de patches, upgrade e ajuste do banco de dados.

  • Armazenamento de objetos

    O serviço OCI Object Storage oferece acesso a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados de análise e conteúdo avançado, como imagens e vídeos. Você pode armazenar dados de forma segura e protegida diretamente da internet ou de dentro da plataforma da nuvem. Você pode dimensionar o armazenamento sem prejudicar o desempenho ou a confiabilidade do serviço.

    Use o armazenamento padrão para armazenamento de acesso frequente que você precisa para acessar de forma rápida, imediata e com frequência. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente acessa.

  • Oracle Data Transforms

    O Oracle Data Transforms permite projetar transformações gráficas de dados na forma de cargas de dados, fluxos de dados e fluxos de trabalho sem exigir que você escreva qualquer código. As Cargas de Dados fornecem uma maneira conveniente de carregar dados no Oracle Autonomous Database. Os fluxos de dados definem como os dados são movidos e transformados entre sistemas diferentes, enquanto os fluxos de trabalho definem a sequência na qual os fluxos de dados são executados.

  • OCI GoldenGate

    O Oracle Cloud Infrastructure GoldenGate é um serviço gerenciado que fornece uma plataforma de malha de dados em tempo real, replicação para manter os dados altamente disponíveis e análise em tempo real. Você pode projetar, executar e monitorar suas soluções de replicação de dados e streaming de dados sem alocar ou gerenciar ambientes de computação.

Carregar Dados no Snowflake Usando o Spark

Essa arquitetura usa o Spark (Data Flow) para ler dados do OCI Object Storage, seguido pela API Python do Snowflake para carregar os dados no Snowflake.

Depois que você configurar os jobs do BICC, os arquivos ZIP ficarão no OCI Object Storage. Essa arquitetura de referência usa duas ferramentas diferentes. Data Science para desenvolvimento e teste. O serviço Data Flow como uma ferramenta Spark para executar o código e carregar os dados do OCI Object Storage para o Snowflake. O spark usa um driver JDBC que pode ser submetido a download na documentação do Snowflake.



migrar-fa-snowflake-spark-object-storage-oracle.zip

Essa arquitetura suporta os seguintes componentes:

  • Data Science

    O Oracle Cloud Infrastructure Data Science é uma plataforma totalmente gerenciada e sem servidor que as equipes de ciência de dados podem usar para criar, treinar e gerenciar modelos de aprendizado de máquina (ML) no Oracle Cloud Infrastructure (OCI). Ele pode se integrar facilmente a outros serviços da OCI, como Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e muito mais. Você pode criar e avaliar modelos de machine learning de alta qualidade que aumentam a flexibilidade dos negócios, colocando dados confiáveis da empresa para funcionar rapidamente e pode oferecer suporte a objetivos de negócios orientados por dados com implementação mais fácil de modelos de ML. O serviço Data Science permite que cientistas de dados e engenheiros de machine learning usem pacotes do Repositório Anaconda gratuitamente.

  • Armazenamento de objetos

    O serviço OCI Object Storage oferece acesso a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados de análise e conteúdo avançado, como imagens e vídeos. Você pode armazenar dados de forma segura e protegida diretamente da internet ou de dentro da plataforma da nuvem. Você pode dimensionar o armazenamento sem prejudicar o desempenho ou a confiabilidade do serviço.

    Use o armazenamento padrão para armazenamento de acesso frequente que você precisa para acessar de forma rápida, imediata e com frequência. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente acessa.

  • Data Flow

    O serviço Data Flow é um serviço Apache Spark totalmente gerenciado que executa tarefas de processamento em conjuntos de dados extremamente grandes, sem infraestrutura para implantar ou gerenciar. Data Flow é um programa visual que representa o fluxo de dados dos ativos de dados de origem, como um banco de dados ou um arquivo sem formatação, para ativos de dados de destino, como um data lake ou data warehouse. O designer de interface do usuário intuitivo do OCI Data Integration é aberto quando você cria, exibe ou edita um fluxo de dados.

Carregar Dados no Armazenamento na Nuvem e Copiar no Snowflake

Essa arquitetura usa várias APIs de armazenamento em nuvem com Python para copiar os dados do OCI Object Storage para outros provedores de nuvem, como AWS S3, Google Cloud Storage ou Azure Blob Storage.

Primeiro, instale e configure o armazenamento em nuvem relevante para sua organização:

  1. Carregue dados no Amazon S3 e copie para o Snowflake:
    1. Instalar Boto3
    2. Configuração S3 para integração de armazenamento Snowflake
    O processo lê os arquivos ZIP do OCI Object Storage e extrai o conteúdo no Amazon S3 de destino. Depois que os arquivos forem copiados, você poderá usar o comando COPY INTO Snowflake para carregar os dados em tabelas.
  2. Carregue dados no Google Cloud Storage e copie para o Snowflake:
    1. Instalar o Google Cloud SDK
    2. Configuração do Google Cloud Storage para integração de armazenamento Snowflake
    O processo lê os arquivos ZIP do OCI Object Storage e extrai o conteúdo no Google Cloud de destino. Depois que os arquivos forem copiados, você poderá usar o comando COPY INTO Snowflake para carregar os dados em tabelas.
  3. Carregue dados no Armazenamento de Blob do Azure e copie para o Snowflake: Configuração de contêiner do Azure para integração de armazenamento do Snowflake. O processo lê os arquivos ZIP do OCI Object Storage e extrai o conteúdo no Azure Blob Storage de destino. Depois que os arquivos forem copiados, você poderá usar o comando COPY INTO Snowflake para carregar os dados em tabelas.


migrar-fa-snowflake-third-party-storage-oracle.zip

Essa arquitetura suporta os seguintes componentes:

  • Data Science

    O Oracle Cloud Infrastructure Data Science é uma plataforma totalmente gerenciada e sem servidor que as equipes de ciência de dados podem usar para criar, treinar e gerenciar modelos de aprendizado de máquina (ML) no Oracle Cloud Infrastructure (OCI). Ele pode se integrar facilmente a outros serviços da OCI, como Oracle Autonomous Data Warehouse, Oracle Cloud Infrastructure Object Storage e muito mais. Você pode criar e avaliar modelos de machine learning de alta qualidade que aumentam a flexibilidade dos negócios, colocando dados confiáveis da empresa para funcionar rapidamente e pode oferecer suporte a objetivos de negócios orientados por dados com implementação mais fácil de modelos de ML. O serviço Data Science permite que cientistas de dados e engenheiros de machine learning usem pacotes do Repositório Anaconda gratuitamente.

  • Armazenamento de objetos

    O serviço OCI Object Storage oferece acesso a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados de análise e conteúdo avançado, como imagens e vídeos. Você pode armazenar dados de forma segura e protegida diretamente da internet ou de dentro da plataforma da nuvem. Você pode dimensionar o armazenamento sem prejudicar o desempenho ou a confiabilidade do serviço.

    Use o armazenamento padrão para armazenamento de acesso frequente que você precisa para acessar de forma rápida, imediata e com frequência. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente acessa.