Plataforma de aprendizado de máquina no Autonomous Data Warehouse

Para acompanhar as necessidades de informações em constante mudança, as organizações buscam cada oportunidade de treinar, implantar e gerenciar rapidamente modelos de machine learning (ML).

Com o Oracle Autonomous Data Warehouse (ADW), você tem todas as ferramentas incorporadas necessárias para carregar e preparar dados e treinar, implantar e gerenciar modelos de aprendizado de máquina. Esses serviços estão incluídos no Autonomous Data Warehouse, mas você também tem a flexibilidade de combinar e combinar outras ferramentas para melhor atender às necessidades da sua organização.

Essa arquitetura de referência posiciona a solução tecnológica dentro do contexto de negócios geral:

Veja a seguir a descrição da ilustração data-driven-business-context.png
Descrição da ilustração data-driven-business-context.png

Quando as organizações implementam um data warehouse ou data mart em conjunto com uma plataforma de aprendizado de máquina na nuvem, geralmente precisam reunir vários serviços para implementar uma solução de ponta a ponta. Embora para algumas organizações, isso é possível, para outras que não têm experiência ou recursos para isso, pode ser uma tarefa difícil.

Uma plataforma abrangente de aprendizado de máquina deve incluir, no mínimo, o seguinte:

  • Acesso fácil a dados estruturados e não estruturados
  • Capacidade de criar e gerenciar pipelines de engenharia de dados
  • Capacidade de criar modelos e pontuar dados em escala para atender aos objetivos de negócios
  • Plataforma colaborativa para a criação de modelos de aprendizagem de máquina
  • Processo simples de gerenciar e implantar modelos
  • Use AutoML para expandir o alcance dos capazes de criar modelos de aprendizagem de máquina e acelerar o trabalho dos cientistas de dados

A plataforma de machine learning de ferramentas incluída no Autonomous Data Warehouse fornece aos departamentos e organizações uma maneira eficaz de oferecer os benefícios do machine learning sem depender muito dos recursos de TI e da disponibilidade. Além disso, as atualizações de produtos e os patches de segurança são tratados automaticamente por meio do Autonomous Data Warehouse.

Arquitetura

Essa arquitetura usa recursos de ciência de dados e machine learning incorporados ao Oracle Autonomous Data Warehouse para analisar dados de uma ampla gama de recursos de dados empresariais para análise de negócios e aprendizado de máquina.

O diagrama a seguir mostra vários caminhos que um usuário pode seguir, dependendo do caso de uso. O caminho mais fácil (linhas sólidas) fornece um método simples para executar tarefas de engenharia de dados, para criar modelos de aprendizado de máquina e para gerenciar e implantar modelos com ferramentas incorporadas no Autonomous Data Warehouse (ADW). Para casos de uso mais avançados (linhas com painel), incluímos outros serviços do Oracle Cloud Infrastructure (OCI) que se integram perfeitamente aos serviços incluídos no ADW (aberto na caixa cinza).

Veja a seguir a descrição da ilustração ml-adw-architecture.png
Descrição da ilustração ml-adw-architecture.png

ml-adw-architecture-oracle.zip

A arquitetura concentra-se nas seguintes divisões lógicas:

  • Ingestão, Transformação

    Insere e refina os dados para uso em cada uma das camadas de dados da arquitetura.

  • Persistir, Curar, Criar

    Facilita o acesso e a navegação dos dados para mostrar a exibição de negócios atual. Para tecnologias relacionais, os dados podem ser estruturados lógica ou fisicamente em formas relacionais, longitudinais, dimensionais ou OLAP simples. Para dados não relacionais, essa camada contém um ou mais pools de dados, saída de um processo analítico ou dados otimizados para uma tarefa analítica específica.

  • Analise, Aprenda, Preveja

    Resume a visão lógica de negócios dos dados para os consumidores. Essa abstração facilita abordagens ágeis de desenvolvimento, migração para a arquitetura de destino e fornecimento de uma única camada de geração de relatórios de várias fontes federadas.

O diagrama a seguir mostra um mapeamento da arquitetura para serviços fornecidos no Oracle Cloud Infrastructure usando as melhores práticas de segurança.



oci-adb-oac-arch-gw-oracle.zip

A arquitetura tem os seguintes componentes:

  • Integração de dados

    O Autonomous Data Warehouse vem com as ferramentas incorporadas necessárias para adquirir, carregar e transformar seus dados em muitos cenários departamentais e casos de uso avançados específicos. Incluído no Autonomous Data Warehouse é um recurso de carga que permite carregar rapidamente dados do armazenamento local ou de objeto. Também estão incluídos Transformações de Dados Autônomos que permitem estabelecer conexão com dados de vários tipos de origem diferentes e acessar a funcionalidade do tipo ELT.

    Para casos de uso mais avançados, há o Oracle Cloud Infrastructure Data Integration. O Oracle Cloud Infrastructure Data Integration é um serviço de nuvem nativo totalmente gerenciado e sem servidor que ajuda com tarefas comuns de extração, carga e transformação (ETL), como a ingestão de dados de diferentes origens, a limpeza, a transformação e a remodelação desses dados e, em seguida, o carregamento eficiente para origens de dados de destino no Oracle Cloud Infrastructure.

  • Autonomous Data Warehouse

    O Oracle Autonomous Data Warehouse é um serviço de banco de dados independente, com autoproteção e autorreparo otimizado para cargas de trabalho de data warehousing. Não é necessário configurar ou gerenciar nenhum hardware ou instalar qualquer software. O Oracle Cloud Infrastructure trata da criação do banco de dados, bem como do backup, aplicação de patches, upgrade e ajuste do banco de dados.

    Com o Autonomous Data Warehouse, você tem a flexibilidade de carregar dados em vários formatos, incluindo estruturado, JSON, XML, gráfico e espacial. Bundled with this service são as Ferramentas Autônomas que permitem carregar facilmente dados em tabelas e fazer um trabalho ETL leve.

    O Oracle Machine Learning está integrado ao núcleo do Autonomous Data Warehouse. Isso permite executar algoritmos no banco de dados no kernel do banco de dados e produz objetos de banco de dados de primeira classe para implantação imediata.

  • Armazenamento de objetos

    O Oracle Cloud Infrastructure Object Storage é uma plataforma de armazenamento de alto desempenho em escala de internet que oferece durabilidade de dados confiável e econômica. O Oracle Cloud Infrastructure Object Storage pode armazenar uma quantidade ilimitada de dados não estruturados de qualquer tipo de conteúdo, incluindo dados analíticos. Você pode armazenar ou recuperar dados diretamente da internet ou de forma segura na plataforma de nuvem. Várias interfaces de gerenciamento permitem que você comece com facilidade e dimensione sem problemas, sem prejudicar o desempenho ou a confiabilidade do serviço.

  • Prever

    Os serviços do Oracle Machine Learning estendem a funcionalidade do Oracle Machine Learning (OML) para suportar a implantação de modelos e o gerenciamento do ciclo de vida do modelo para modelos do Oracle Machine Learning no banco de dados e modelos de aprendizado de máquina do Open Neural Networks (ONNX) de terceiros por meio de APIs REST. O Oracle Machine Learning Services suporta pontuação em tempo real e pequena escala para aplicativos e painéis.

    A API REST para Serviços do Oracle Machine Learning fornece pontos finais REST com autenticação por meio do Autonomous Data Warehouse. Esses pontos finais permitem o armazenamento e o gerenciamento de modelos de machine learning e seus metadados. Esses pontos finais também permitem a criação de pontos finais de pontuação para modelos.

    O Oracle Machine Learning Services suporta modelos de regressão ou classificação de terceiros que podem ser criados usando pacotes como Scikit-learn e TensorFlow, entre outros e exportados no formato ONNX. O Oracle Machine Learning Services suporta análise de texto cognitivo integrada para descoberta de tópicos, palavras-chave, resumo, sentimento e similaridade. O Oracle Machine Learning Services também suporta classificação de imagem por meio da implantação de modelos no formato ONNX de terceiros e suporta pontuação usando imagens ou tensores.

    Os usuários também podem prever diretamente no banco de dados usando modelos no banco de dados de SQL, R e Python para pontuação única, em lote pequeno e em lote em larga escala. Os usuários podem aproveitar a execução incorporada do Python OML4Py para chamar a função Python definida pelo usuário com modelos produzidos de pacotes de terceiros e fazer previsões de interfaces Python e REST.

  • Saiba Mais

    Os Oracle Machine Learning Notebooks fornecem uma interface de usuário colaborativa para cientistas de dados e analistas de negócios e dados trabalharem com interpretadores SQL e Python enquanto também realizam machine learning no Oracle Autonomous Database, que inclui o Autonomous Data Warehouse (ADW), o Autonomous Transaction Processing (ATP) e o JSON Database (AJD). Os Oracle Machine Learning Notebooks permitem que a equipe de ciência de dados mais ampla (cientistas de dados, cientistas de dados cidadãos, analistas de dados, engenheiros de dados e DBAs) trabalhe em conjunto para explorar seus dados visualmente e desenvolver metodologias analíticas usando OML4SQL e OML4Py. A interface Notebooks fornece acesso às implementações escaláveis, paralelas e de alto desempenho da Oracle no banco de dados de algoritmos de aprendizado de máquina via Python, SQL e PL/SQL. A funcionalidade no banco de dados também pode ser acessada por meio da conexão com o Autonomous Database por meio de interfaces externas, como SQL Developer, ambientes de notebook de código-fonte aberto e IDEs de terceiros.

    O OML4Py também fornece uma API Python para aprendizado de máquina automatizado (AutoML) para seleção automatizada de algoritmos e recursos e para ajuste e seleção automatizados de modelos.

    O Oracle Machine Learning AutoML User Interface (OML AutoML UI) é uma interface de usuário sem código que fornece aprendizado de máquina automatizado com facilidade de implantação no Oracle Machine Learning Services. Usuários de negócios sem conhecimento de ciência de dados extensivo podem usar a interface do usuário do OML AutoML para criar e implantar modelos de aprendizado de máquina, bem como gerar um notebook do OML contendo o código OML4Py correspondente para reconstruir o modelo e pontuar os dados de forma programática.

    Os cientistas de dados especializados podem usar a IU do OML AutoML como um acelerador de produtividade para uma exploração de modelo mais rápida, para facilitar a implantação e para geração de notebook inicial.

  • Análise

    OOracle Analytics Cloud é um serviço de nuvem pública escalável e seguro que fornece um conjunto completo de recursos para explorar e executar análise colaborativa para você, seu grupo de trabalho e sua empresa.

    O Oracle Analytics Cloud é integrado ao Oracle Machine Learning com acesso a modelos no banco de dados que podem ser pesquisados, visualizados e implantados em workflows e painéis do Oracle Analytics Cloud.

    Com o Oracle Analytics Cloud, você também obtém recursos flexíveis de gerenciamento de serviços, incluindo configuração rápida, dimensionamento e aplicação de patches fáceis e gerenciamento automatizado do ciclo de vida.

Recomendações

Use as recomendações a seguir como um ponto de partida criando uma plataforma para um data warehouse avançado na nuvem e para uma estrutura de operações de machine learning.

Os requisitos podem diferir da arquitetura descrita aqui.

  • Ingestão, Transformação

    As Ferramentas do Autonomous Database são funcionalidades incorporadas no Oracle Autonomous Data Warehouse que oferece recursos para carregar, transformar, catalogar, obter insights e até mesmo desenvolver modelos de negócios de maneira simples e direta.

  • Analise, Aprenda, Preveja

    Antes de conectar o Oracle Analytics Cloud ao Oracle Autonomous Data Warehouse, tenha um administrador de banco de dados que permita o endereço IP (ou intervalo de endereços) da sua instância do Oracle Analytics Cloud. O administrador do banco de dados deve adicionar uma regra de segurança que permita o tráfego TCP/IP do Oracle Analytics Cloud ao banco de dados.

Considerações

Ao criar uma estrutura de operações de machine learning em conjunto com seu data warehouse na nuvem, considere essas opções de implementação.

  • Gravidade dos dados: mantenha sua estrutura de operações de aprendizado de máquina próxima aos seus dados para limitar o alto custo do movimento de dados, tanto monetariamente quanto em termos do tempo de desenvolvimento do modelo de aprendizado de máquina (mesmo para pontuação de dados usando modelos de aprendizado de máquina).
  • Tempo de retorno mais rápido: As recomendações na tabela abaixo ajudarão você a começar a usar mais rapidamente e reduzir o tempo necessário para começar a perceber o valor da sua solução.
Orientação Recomendado Outras Opções Base Lógica
Ingestão, Transformação Ferramentas do Autonomous Database Oracle Cloud Infrastructure Data Integration Isso depende do caso de uso. Para facilitar o carregamento de dados de arquivos no Object Storage ou no armazenamento de dados Local, use as Ferramentas do Autonomous Database. Como mencionado anteriormente, as Transformações de Dados do Autonomous Data Warehouse também podem ser utilizadas dependendo do caso de uso. Para casos mais avançados, use o Oracle Cloud Infrastructure Data Integration, que é um serviço sob demanda.
Manter Oracle Autonomous Data Warehouse O Autonomous Data Warehouse é um data warehouse em nuvem que não só fornece as necessidades de análise de um data warehouse, como também inclui a funcionalidade para implantar uma estrutura de operações avançada do Oracle Machine Learning. Você também pode acessar diretamente os dados do armazenamento de objetos por meio de tabelas externas armazenadas em qualquer número de formatos e tipos.
Aprendizagem Oracle Machine Learning Notebooks com OML4SQL, OML4Py e OML4R

IU do Oracle Machine Learning AutoML

Terceiro

OCI Data Science

Os Notebooks OML são um ambiente de notebook colaborativo incluído na plataforma Autonomous Data Warehouse. Usando OML4SQL, OML4Py e OML4R, um usuário pode criar modelos diretamente no banco de dados. Os modelos no banco de dados podem ser exportados e importados entre o Oracle Database e o Autonomous Data Warehouse. Os usuários podem criar modelos Python e R usando ferramentas de terceiros com ambientes conda personalizados no Autonomous Database ou criá-los fora da estrutura do Oracle Machine Learning e armazenar esses modelos nativos no armazenamento de dados para uso com a execução OML4Py-embedded e OML4R-embedded.
Prever

Serviços do Oracle Machine Learning

Oracle Machine Learning Notebooks com OML4SQL, OML4Py e OML4R

Oracle Cloud Infrastructure Data Science

Modelos no banco de dados usando consultas SQL e interfaces OML4R/OML4Py

Capacidade de classificar o modelo por meio da API REST com implantação de modelo gerenciada pelo Oracle Machine Learning Services. Os Serviços do Oracle Machine Learning também permitem a importação de modelos criados fora da estrutura do Oracle Machine Learning por meio do formato ONNX. Isso pode incluir modelos produzidos no Oracle Cloud Infrastructure Data Science.
Acesso e Interpretação Oracle Analytics Cloud Ferramentas de terceiros O Oracle Analytics Cloud é totalmente gerenciado e totalmente integrado com a estrutura do Oracle Machine Learning. Um dos principais recursos é a capacidade de implantar modelos criados no Oracle Machine Learning no Oracle Analytics Cloud para aprendizado de máquina escalável e em painéis de controle.

Implantar

O código necessário para implantar esta arquitetura de referência está disponível no GitHub. Você pode colocar o código no Oracle Cloud Infrastructure Resource Manager com um único clique, criar a pilha e implantá-la. Como alternativa, faça download do código do GitHub para seu computador, personalize o código e implante a arquitetura usando a CLI do Terraform.

  • Implante usando o Oracle Cloud Infrastructure Resource Manager:
    1. Clique em Implante no Oracle Cloud

      Se você ainda não estiver conectado, informe a tenancy e as credenciais do usuário.

    2. Revise e aceite os termos e condições.
    3. Selecione a região na qual você deseja implantar a pilha.
    4. Siga os prompts na tela e as instruções para criar a pilha.
    5. Após criar a pilha, clique em Ações do Terraform e selecione Planejar.
    6. Aguarde a conclusão do job e revise o plano.

      Para fazer alterações, retorne à página Detalhes da Pilha, clique em Editar Pilha e faça as alterações necessárias. Em seguida, execute a ação Plano novamente.

    7. Se nenhuma alteração adicional for necessária, retorne à página Detalhes da Pilha, clique em Ações do Terraform e selecione Aplicar.
  • Implante usando o código do Terraform no GitHub:
    1. Vá para GitHub.
    2. Clone ou faça download do repositório no computador local.
    3. Siga as instruções no documento README.

Alterar Log

Esse log lista as alterações significativas: