Visão Geral do Serviço Data Science

O Oracle Cloud Infrastructure (OCI) Data Science é uma plataforma totalmente gerenciada e sem servidor para que as equipes de ciência de dados possam criar, treinar e gerenciar modelos de aprendizado de máquina.

O serviço Data Science:

Fornece aos cientistas de dados um espaço de trabalho colaborativo e orientado a projetos.
Permite o acesso de autoatendimento e sem servidor à infraestrutura para cargas de trabalho da ciência de dados.
Inclui ferramentas, bibliotecas e pacotes centrados no Python, desenvolvidos pela comunidade de código-fonte aberto e a Biblioteca do Oracle Accelerated Data Science, que suporta o ciclo de vida completo de modelos preditivos:
- Aquisição, criação de perfil, preparação e visualização de dados.
- Engenharia de recursos.
- Treinamento de modelo (incluindo o Oracle AutoML).
- Avaliação, explicação e interpretação do modelo (incluindo o Oracle MLX).
Integra-se com o restante da pilha do Oracle Cloud Infrastructure, incluindo Funções, Serviço Data Flow, Autonomous AI Lakehouse e Armazenamento de Objetos.
Implantação de modelo como recursos para implantar modelos como aplicativos web (pontos finais de API HTTP).
Os jobs do serviço Data Science permitem definir e executar tarefas de machine learning repetíveis em uma infraestrutura totalmente gerenciada.
Os pipelines permitem executar fluxos de trabalho de machine learning de ponta a ponta.
Inclui políticas e vaults para controlar o acesso a compartimentos e recursos.
Inclui métricas que fornecem informações detalhadas sobre integridade, disponibilidade, desempenho e uso dos recursos do Data Science.
Ajuda os cientistas de dados a se concentrarem em métodos e conhecimentos de domínio para entregar modelos à produção.

Dica

Você pode usar o Guia de um Cientista de Dados para a OCI para começar.

Conceitos do Serviço Data Science

Verifique os conceitos e termos a seguir para ajudá-lo a começar a usar o serviço Data Science.

SDK do Data Science Acelerado: O SDK do Oracle Accelerated Data Science (ADS) é uma biblioteca Python incluída como parte do serviço OCI Data Science. O ADS tem muitas funções e objetos que automatizam ou simplificam as etapas do workflow do serviço Data Science, incluindo conexão com dados, exploração e visualização de dados, treinamento de um modelo com AutoML, avaliação e explicação de modelos. Além disso, o ADS fornece uma interface para acessar o catálogo de modelos do serviço Data Science e outros serviços do OCI, incluindo o Object Storage. Para se familiarizar com ADS, consulte a Biblioteca do Accelerated Data Science.
Projetos: Os projetos são espaços de trabalho colaborativos para organizar e documentar ativos do serviço Data Science, como sessões e modelos de notebook.
Sessões de Notebook: As sessões de notebook do serviço Data Science são ambientes de codificação interativos para criação e modelos de treinamento. As sessões de notebook vêm com muitos pacotes de ciência de dados e aprendizado de máquina pré-instalados, de código-fonte aberto e desenvolvidos pela Oracle.
Ambientes Conda: Conda é um ambiente de código-fonte aberto e um sistema de gerenciamento de pacotes, criado para programas Python. Ele instala, executa e atualiza pacotes e suas dependências. O Conda cria, salva, carrega e alterna facilmente entre os ambientes em seu computador local.
Modelos: Os modelos definem uma representação matemática de seus dados e processo de negócios. O catálogo de modelos é um local para armazenar, rastrear, compartilhar e gerenciar modelos.
Implantações de Modelo: Implantações de modelo são um recurso gerenciado no serviço Data Science que permite implantar modelos armazenados no catálogo de modelos como pontos finais HTTP. A implantação de modelos de aprendizado de máquina como aplicativos web (pontos finais de API HTTP) que oferecem previsões em tempo real é a maneira mais comum de produzir modelos. Os pontos finais HTTP são flexíveis e podem atender a solicitações de previsões de modelo.
Jobs: Os jobs do serviço Data Science permitem definir e executar tarefas de machine learning repetíveis em uma infraestrutura totalmente gerenciada.
Pipelines: Um pipeline do Data Science é uma construção executável que descreve uma orquestração de machine learning de ponta a ponta que pode ser executada de maneira repetível.
Logs: Integre o serviço Logging no Serviço Data Science para criar e gerenciar logs personalizados.
Métricas: Monitore a integridade, a capacidade e o desempenho de alguns recursos do serviço Data Science usando métricas, alarmes e notificações.

Revise os Conceitos-Chave do OCI.

Maneiras de Acessar o Serviço Data Science

Você acessa o serviço Data Science usando a Console, a API REST, SDKs ou a CLI.

Use qualquer uma das opções a seguir, com base na sua preferência e na adequação para a tarefa que deseja desempenhar:

A Console do OCI é uma interface fácil de usar e baseada em browser. Para acessar a Console, você deve usar um browser suportado.
As APIs REST fornecem a maior parte da funcionalidade, mas requerem experiência em programação. Referência de API e pontos finais fornecem detalhes de ponto final e links para os documentos disponíveis de referência de API, incluindo a API REST do Serviço Data Science.
O OCI fornece SDKs que interagem com o serviço Data Science sem a necessidade de criar um framework.
A CLI fornece acesso rápido e funcionalidade completa sem a necessidade de programação.

Regiões e Domínios de Disponibilidade

Os serviços do OCI são hospedados em regiões e domínios de disponibilidade. Região é uma área geográfica localizada e domínio de disponibilidade corresponde a um ou mais data centers encontrados nessa região.

O serviço Data Science está hospedado em todas as regiões em que a OCI está disponível.

Limites dos Recursos do Serviço Data Science

Quando você se cadastra no OCI, um conjunto de limites de serviço é configurado para sua tenancy. O limite de serviço é a cota ou a permissão definida nos recursos.

Limites por Serviço inclui limites da Data Science e outros serviços OCI. Você pode solicitar um aumento do limite de serviço para alterar os padrões.

Dica

Assista ao vídeo aumentando os limites do serviço Data Science para obter detalhes específicos.

Além desses limites de serviço, observe que:

As sessões de notebook e os modelos com falha e inativos contam para seus limites de serviço. Somente quando você interrompe totalmente uma instância ou exclui um modelo, ele não é contado para sua cota.
Os limites de GPU são definidos como zero por padrão; portanto, peça ao administrador do sistema que aumente os limites para que você possa usar GPUs.
O número máximo de jobs é 1.000. Por padrão, cada tenancy pode criar até 1.000 jobs. Você pode aumentar esse limite em um ticket de solicitação de serviço do CAM.
O número de execuções simultâneas de jobs é limitado pelos limites de contagem de núcleos do serviço Data Science.

Identificadores de Recursos

A maioria dos tipos de recursos do OCI tem um ID exclusivo designado pela Oracle chamado OCID (Oracle Cloud Identifier) .

O OCID é fornecido como parte das informações do recurso na Console e na API. Para obter informações sobre o formato OCID e outras maneiras de identificar recursos, consulte Identificadores de Recursos.

Autenticação e Autorização

Cada serviço no OCI se integra ao Identity and Access Management para acesso aos recursos da nuvem por meio da Console do OCI, SDKs, APIs REST ou a CLI.

Um administrador na sua organização deve configurar instâncias, grupos, compartimentos e políticas que controlem quem pode acessar quais serviços e recursos e o tipo de acesso. Seu administrador confirma quais compartimentos você deve usar.

Use Políticas para criar e gerenciar projetos do serviço Data Science ou iniciar sessões de notebook.

Provisionamento e Preços

O serviço Data Science oferece uma experiência sem servidor para desenvolvimento e implantação de modelos. Quando você cria recursos do serviço Data Science, como sessões de notebook, modelos, implantações de modelo e jobs, a infraestrutura de Computação e armazenamento subjacente é provisionada e mantida para você.

Você paga pelo uso da infraestrutura subjacente (Block Storage, Compute e Object Storage). Consulte a lista de preços detalhada para recursos do serviço Data Science.

Você só paga pela infraestrutura enquanto a utiliza com recursos do serviço Data Science:

Sessões de Notebook

As sessões de notebook são sem servidor e toda a infraestrutura subjacente é gerenciada pelo serviço.
Ao criar uma sessão de notebook, você seleciona a forma da VM (o tipo de CPU ou GPU da máquina e o número de OCPUs ou GPUs) e o volume do armazenamento em blocos (no mínimo 50 GB).
Enquanto uma sessão de notebook está ativa, você paga pelos serviços Compute e Block Storage nas taxas padrão do Oracle Cloud Infrastructure. Consulte Desativando Sessões de Notebook.
Você pode desativar a sessão de notebook, o que fará shutdown do serviço Compute, embora mantenha o serviço Block Storage. Nesse caso, você não será mais cobrado pelo serviço Compute, mas continuará pagando pelo serviço Block Storage. Isso se aplica a sessões de notebook com uma instância de GPU. As sessões de notebook com uma instância GPU não são medidas para o serviço Compute quando estão desativadas.

Você pode ativar sua sessão de notebook para reconectar este serviço Block Storage ao novo serviço Compute. Consulte Desativando e Ativando uma Sessão de Notebook.
Quando você exclui uma sessão de notebook, não há mais cobrança pelo serviço Compute ou Block Storage, consulte Excluindo uma Sessão de Notebook.

Modelos

Ao salvar um modelo no catálogo de modelos, você é cobrado pelo armazenamento do artefato de modelo nas taxas padrão do Object Storage em termos de GB por mês.
Ao excluir um modelo, você não será mais cobrado. Consulte Excluindo um Modelo.

Implantações de Modelo

Ao implantar um modelo, você seleciona o tipo de forma e o número de réplicas que hospedam os servidores de modelo. Você também pode selecionar a largura de banda do balanceador de carga associada à implantação.
Quando uma implantação de modelo está ativa, você paga pelas VMs que estão hospedando os servidores de modelo e pelo balanceador de carga nas taxas padrão do OCI.
Quando você desativa uma implantação de modelo, não é mais cobrado pelas VMs ou pelo balanceador de carga. Você pode reativar uma implantação de modelo e os resumos de faturamento para VMs e balanceador de carga.
Ao excluir uma implantação de modelo, você não será mais cobrado pela infraestrutura associada a ela.

Jobs

Os jobs não renderizam um custo premium para usar o serviço; você só paga pela infraestrutura usada subjacente e apenas durante a execução do artefato de job.
A medição começa no momento em que o artefato de job é executado e é interrompida com a saída do código. Você não paga pelo tempo de provisionamento da infraestrutura nem pelo desprovisionamento da infraestrutura.

A medição inclui o consumo de CPU ou GPU por OCPU durante a execução do artefato de job e o tamanho do Armazenamento em Blocos usado para o job.
O uso do serviço Logging com Jobs não resulta em custo adicional.

Pipelines

Os pipelines são cobrados pelo uso do Compute e do Block Storage subjacentes que o pipeline usa para executar o código de etapa do pipeline.
Não há cobrança extra para o armazenamento de orquestração ou artefato.

Dica

Você pode usar Verificando o Saldo e o Uso para verificar os custos associados à conta. Além disso, você pode usar as Ferramentas de Faturamento e Pagamento do Oracle Cloud Infrastructure para analisar o uso do serviço Data Science e gerenciar custos.

Conformidade

Revise os padrões com os quais o serviço Data Science está em conformidade.

O serviço é compatível com estes padrões:

HIPAA, usado por empresas de assistência médica para proteger a privacidade do paciente.

PCI-DSS, usado pelo setor de cartões de crédito para proteger os consumidores contra fraudes.

Documentação do Oracle Cloud Infrastructure