Treinar Modelos de Aprendizagem de Máquina para Casos de Uso de Assistência Médica

Use o serviço Oracle Cloud Infrastructure Data Science para explorar e treinar modelos de aprendizado de máquina para casos de uso de assistência médica.

Arquitetura

Esta arquitetura mostra uma implantação típica do Oracle Cloud Infrastructure Data Science no OCI (Oracle Cloud Infrastructure).

O diagrama a seguir mostra os serviços básicos e alguns dos serviços opcionais que você pode incorporar, conforme necessário.

Veja a seguir a descrição da ilustração health-ml-design-pattern.png
Descrição da ilustração health-ml-design-pattern.png

assistência médica-ml-design-pattern-oracle.zip

Estes são os principais componentes da arquitetura:

  • Object Storage ou Oracle Autonomous Database como local de armazenamento.
  • Sessão de Notebook do serviço Data Science para exploração e desenvolvimento dos modelos
  • Implantação de modelo para produzir modelos e disponibilizá-los por meio de uma API REST.

Essa arquitetura oferece suporte aos seguintes componentes:

  • Região

    Uma região do Oracle Cloud Infrastructure é uma área geográfica localizada que contém um ou mais data centers, denominados domínios de disponibilidade. As regiões são independentes das outras regiões, e grandes distâncias podem se separar (em países ou até mesmo continentes).

  • Rede virtual na nuvem (VCN) e sub-rede

    Uma VCN é uma rede predefinida e personalizável que você configura em uma região do Oracle Cloud Infrastructure. Como as redes de data center tradicionais, as VCNs dão a você total controle sobre seu ambiente de rede. Uma VCN pode ter vários blocos CIDR não sobrepostos que você pode alterar após criar a VCN. Você pode segmentar uma VCN em sub-redes, que podem ter escopo em uma região ou em um domínio de disponibilidade. Cada sub-rede consiste em um intervalo contínuo de endereços que não se sobrepõem às outras sub-redes da VCN. Você pode alterar o tamanho de uma sub-rede após a criação. Uma sub-rede pode ser pública ou privada.

  • Gateway de internet

    O gateway de internet permite o tráfego entre as sub-redes públicas em uma VCN e a internet pública.

  • API Gateway

    O Oracle API Gateway permite que você publique APIs com pontos finais privados acessíveis na sua rede e que você pode expor à internet pública, se necessário. Os pontos finais suportam validação de API, transformação de solicitação e resposta, CORS, autenticação e autorização e limitação de solicitação.

  • Data Integration

    O Oracle Cloud Infrastructure Data Integration é um serviço totalmente gerenciado, sem servidor e nativo da nuvem que extrai, carrega, transforma, limpa e remodela dados de uma variedade de origens de dados nos serviços do Oracle Cloud Infrastructure de destino, como o Autonomous Data Warehouse e o Oracle Cloud Infrastructure Object Storage. O ETL (extract transform load) aproveita o processamento de expansão totalmente gerenciado no Spark e o ELT (extract load transform) aproveita os recursos completos de push-down de SQL do Autonomous Data Warehouse para minimizar a movimentação de dados e melhorar o tempo de valor para os dados recém- ingeridos. Os usuários criam processos de integração de dados usando uma interface de usuário intuitiva e sem código que otimiza fluxos de integração para gerar o mecanismo e a orquestração mais eficientes, alocando e dimensionando automaticamente o ambiente de execução. O Oracle Cloud Infrastructure Data Integration fornece exploração interativa e preparação de dados e ajuda os engenheiros de dados a proteger contra desvios de esquema, definindo regras para tratar alterações de esquema.

  • Catálogo de dados

    O Oracle Cloud Infrastructure Data Catalog é uma solução de descoberta e governança de dados de autoatendimento totalmente gerenciada para os dados da sua empresa. Ele fornece a engenheiros de dados, cientistas, administradores e diretores executivos um único ambiente colaborativo para gerenciar os metadados técnicos, comerciais e operacionais da organização.

  • Object Storage

    O armazenamento de objetos oferece acesso rápido a grandes quantidades de dados estruturados e não estruturados de qualquer tipo de conteúdo, incluindo backups de bancos de dados, dados de análise e conteúdo avançado, como imagens e vídeos. Você pode armazenar de forma segura e depois recuperar dados diretamente da internet ou de dentro da plataforma da nuvem. Você pode escalar o armazenamento de forma integrada sem prejudicar o desempenho ou a confiabilidade do serviço. Use o armazenamento padrão para armazenamento "quente" que você precisa para acessar rapidamente, imediatamente e com frequência. Use o armazenamento de arquivos compactados para armazenamento "frio" que você mantém por longos períodos de tempo e raramente acessa.

  • Autonomous Database

    O Oracle Cloud Infrastructure Autonomous Database é um ambiente de banco de dados totalmente gerenciado e pré-configurado que você pode usar para cargas de trabalho de processamento de transações e data warehousing. Não é necessário configurar ou gerenciar qualquer hardware ou instalar qualquer software. O Oracle Cloud Infrastructure controla a criação do banco de dados, bem como o backup, a aplicação de patches, o upgrade e o ajuste do banco de dados.

  • Serviço Data Science

    O Oracle Cloud Infrastructure Data Science é um serviço de aprendizado de máquina (ML) completo que oferece ambientes de Notebook JupyterLab e acesso a centenas de ferramentas e estruturas de código aberto populares. Crie e treine modelos de ML com GPUs NVIDIA, recursos de AutoML e ajuste automatizado de hiperparâmetro. Implante modelos como pontos finais HTTP ou use o Oracle Functions. Gerencie modelos por meio de controle de versão, jobs repetíveis e catálogos de modelos.

Considerações sobre o Machine Learning

Ao começar a usar o Machine Learning no serviço Oracle Cloud Infrastructure Data Science, considere o seguinte:

  • Entenda os Dados

    Os dados são o componente principal e mais crítico de qualquer projeto de aprendizado de máquina. Os conjuntos de dados publicados geralmente foram selecionados e os recursos podem até ter sido extraídos para você já, o que faz dele uma boa escolha para aprender sobre o serviço.

    O trabalho com novos dados requer mais trabalho para limpar artefatos, otimizar valores ausentes e transformar, codificar ou aumentar o conjunto de dados com recursos adicionais.

    Essa parte do fluxo de trabalho do cientista de dados geralmente é o mais demorado e pode facilmente representar de 80% a 90% do tempo gasto em um projeto de aprendizado de máquina.

  • Aprender a sintaxe do Jupyter Notebook

    O serviço Oracle Cloud Infrastructure Data Science se baseia na estrutura do Jupyter Notebook amplamente adotada. Ele fornece um ambiente visual avançado para testes com dados na linguagem python. O Python é uma das linguagens mais populares para o Data Science, e o Jupyter Notebook aumenta a linguagem com sintaxe específica (chamada mágica) que ajuda a reduzir algumas operações complicadas ao mesmo tempo em que melhora a renderização visual dos dados. Reserve um tempo para saber mais sobre a sintaxe específica do Jupyter Notebook e aproveitar esses recursos.

  • Usar Jobs para operações caras

    Embora a exploração seja uma atividade muito interativa adequada para a interface do Jupyter Notebook, operações caras, como treinamento de modelo e ajuste de hiperparâmetro, podem levar um longo período de tempo e podem ser descarregadas para o recurso Jobs, que permitem aos usuários executar scripts de longa execução em máquinas dedicadas.