Usando Sessões de Notas para Criar e Treinar Modelos

Após criar uma sessão de notebook, você poderá gravar e executar o código Python usando as bibliotecas de aprendizado de máquina na interface JupyterLab para criar e treinar modelos.

Autenticação nas APIs do OCI de uma Sessão de Notebook

Ao trabalhar em uma sessão de notebook, você está operando como o usuário do Linux datascience. Esse usuário não tem uma identidade do OCI IAM (Identity and Access Management); por isso, não tem acesso à API do OCI. Os recursos do OCI incluem projetos e modelos do serviço Data Science e os recursos de outros serviços do OCI, como Object Storage, Functions, Vault, Data Flow etc. Para acessar esses recursos no ambiente de notebook, use uma das duas abordagens de autenticação:

(Recomendado) Autenticando-se com o Uso de um Controlador de Recursos de Sessão do Notebook

Um principal de recursos é uma funcionalidade do IAM que permite que os recursos sejam atores principais autorizados que podem executar ações nos recursos do serviço. Cada recurso tem sua própria identidade e faz a autenticação usando os certificados que são adicionados a ele. Esses certificados são criados automaticamente, designados aos recursos e alternados, evitando a necessidade de armazenar credenciais em uma sessão de notebook.

O serviço Data Science permite que você faça autenticação usando o controlador de recursos de uma sessão de notebook para acessar outros recursos do OCI. Os controladores de recursos oferecem uma maneira mais segura de autenticação em recursos em comparação com a abordagem de chave de API e configuração do OCI

Um administrador de tenancy deve gravar políticas para conceder permissões a um controlador de recursos para acessar outros recursos do OCI. Consulte Usando o Oracle Resource Manager para Configurar Sua Tenancy para o Serviço Data Science.

Você pode autenticar-se com recursos principais em uma sessão de notebook usando as seguintes interfaces:

SDK do Oracle Accelerated Data Science:

Execute o seguinte em uma célula de notebook:

import ads
ads.set_auth(auth='resource_principal')

Para obter detalhes, consulte a documentação do Accelerated Data Science.

OCI Python SDK:

Execute o seguinte em uma célula de notebook.

import oci
from oci.data_science import DataScienceClient
rps = oci.auth.signers.get_resource_principals_signer()
dsc = DataScienceClient(config={}, signer=rps)
CLI do OCI:

Use o flag `--auth=resource_principal` com comandos.

Observação

O token do controlador de recursos é armazenado no cache por 15 minutos. Se você alterar a política ou o grupo dinâmico, deverá esperar 15 minutos para ver o efeito das alterações.
Importante

Se você não usar explicitamente os controladores de recursos quando chamar um SDK ou uma CLI, a abordagem de arquivo de configuração e chave de API será usada

(Padrão) Autenticação Usando o Arquivo de Configuração do OCI e as Chaves de API

Você pode operar como seu próprio usuário do IAM instalando um arquivo de configuração do OCI e chaves de API para acessar os recursos do OCI. Essa é a abordagem de autenticação padrão

Para autenticar-se usando a abordagem de arquivo de configuração e chave de API, faça upload de um arquivo de configuração do OCI no diretório /home/datascience/.oci/ da sessão de notebook. Para o perfil relevante definido no arquivo de configuração do OCI, faça upload também dos arquivos .pem obrigatórios ou crie-os.

Configure o arquivo de configuração do OCI e a chave de API usando Chaves e OCIDs Obrigatórios.

Trabalhando com Arquivos de Código Existentes

Você pode criar novos arquivos ou trabalhar com seus próprios arquivos existentes.

Upload de Arquivos

Os arquivos podem ser submetidos a upload da sua máquina local selecionando Upload na interface JupyterLab ou arrastando e soltando arquivos.

Usando Comandos de Terminal Adicionais

Usando as Variáveis de Ambiente Fornecidas em Sessões de Notebook

Quando você inicia uma sessão de notebook, o serviço cria variáveis de ambiente úteis que você pode usar em seu código:

Nome da Chave da Variável

Descrição

Especificado por

TENANCY_OCID

OCID da tenancy à qual o notebook pertence.

Preenchido automaticamente pelo Data Science.

PROJECT_OCID

O OCID do projeto associado à sessão de notebook atual.

Preenchido automaticamente pelo Data Science.

PROJECT_COMPARTMENT_OCID

OCID do compartimento do projeto ao qual o notebook está associado.

Preenchido automaticamente pelo Data Science.

USER_OCID

OCID do Usuário.

Preenchido automaticamente pelo Data Science.

NB_SESSION_OCID

O OCID da sessão de notebook atual.

Preenchido automaticamente pelo Data Science.

NB_SESSION_COMPARTMENT_OCID

O OCID do compartimento da sessão de notebook atual.

Preenchido automaticamente pelo Data Science.

OCI_RESOURCE_PRINCIPAL_RPT_PATH

Caminho para o token do controlador de recursos do OCI.

Preenchido automaticamente pelo Data Science.

OCI_RESOURCE_PRINCIPAL_RPT_ID

Id do token do controlador de recursos do OCI.

Preenchido automaticamente pelo Data Science.

NB_ONCREATE_SCRIPT_URL

URL do script de ciclo de vida da sessão de notebook a ser executado durante a criação.

Especificado pelo usuário.

NB_ONACTIVATE_SCRIPT_URL

URL do script de ciclo de vida da sessão de notebook a ser executado durante a ativação.

Especificado pelo usuário.

NB_ONDEACTIVATE_SCRIPT_URL

URL do script de ciclo de vida da sessão de notebook a ser executado durante a desativação.

Especificado pelo usuário.

NB_ONDELETE_SCRIPT_URL

URL do script de ciclo de vida da sessão de notebook a ser executado durante a exclusão.

Especificado pelo usuário.

NB_SCRIPT_OUTPUT_LOG_NAMESPACE

Namespace do serviço Object Storage para logs de saída de script do ciclo de vida do notebook.

Especificado pelo usuário.

NB_SCRIPT_OUTPUT_LOG_BUCKET

Bucket do Object Storage para logs de saída de script do ciclo de vida do notebook.

Especificado pelo usuário.

SECURE_DATA_SESSION

Desative o download de arquivo do cliente JupyterLab e da API de download JupyterLab. Defina como Verdadeiro para desativar a funcionalidade de download.

Especificado pelo usuário.

SHM_SIZE Espaço de memória compartilhado, digite o tamanho da memória seguido pelas unidades: g para GB, m para MB e b para bytes. Por exemplo, digite 128g para 128 GB de espaço de memória compartilhada. Especificado pelo usuário.

Para acessar essas variáveis de ambiente na sua sessão de notebook, use a biblioteca Python os. Por exemplo:

import os 
project_ocid = os.environ['PROJECT_OCID']
print(project_ocid)
Observação

Os valores NB_SESSION_COMPARTMENT_OCID e PROJECT_COMPARTMENT_OCID não serão atualizados em uma sessão em execução de notebook se os recursos tiverem movido compartimentos após a criação da sessão do notebook.

Usando Variáveis de Ambiente Personalizadas

Use suas próprias variáveis de ambiente personalizadas nas sessões de notebook.

Após definir suas variáveis de ambiente personalizadas, acesse essas variáveis de ambiente em uma sessão de notebook com a biblioteca Python os. Por exemplo, se você definir um par de chave/valor com a chave MY_CUSTOM_VAR1 e o valor VALUE-1, quando executar o código a seguir, obterá VALUE-1.

import os 
my_custom_var1 = os.environ['MY_CUSTOM_VAR1']
print(my_custom_var1)
Observação

O sistema não permite que você substitua as variáveis de ambiente fornecidas pelo sistema por variáveis personalizadas. Por exemplo, você não pode nomear uma variável personalizada, USER_OCID.

Usando o Oracle Accelerated Data Science SDK

O SDK do Oracle Accelerated Data Science (ADS) acelera atividades comuns de ciência de dados, fornecendo ferramentas que automatizam e simplificam tarefas comuns de ciência de dados. Ele fornece aos cientistas de dados uma interface Python amigável para serviços da OCI, incluindo Data Science, incluindo jobs, Big Data, Data Flow, Object Storage, Streaming e Vault e para o Oracle Database. O ADS oferece uma interface para gerenciar o ciclo de vida dos modelos de machine learning, desde a aquisição de dados até a avaliação, interpretação e implantação de modelos.

Com o ADS, você pode:

  • Leia conjuntos de dados do Object Storage, Oracle Database (ATP, ADW e On-premises), AWS S3 e outras fontes nos quadros de dados do Pandas.
  • Ajuste modelos usando otimização de hiperparâmetro com o módulo ADSTuner.
  • Gere relatórios de avaliação detalhados de candidatos de modelo com o módulo ADSEvaluator.
  • Salve modelos de aprendizado de máquina no catálogo de modelos do serviço Data Science.
  • Implante modelos como solicitações HTTP com a implantação de modelo.
  • Inicie jobs distribuídos de ETL, processamento de dados e treinamento de modelo no Spark usando o Data Flow.
  • conecte-se ao BDS na sessão de notebook. O cluster criado deve ter o Kerberos ativado.

    Use clusters ativados para Kerberos para estabelecer conexão com o Big Data de uma sessão de notebook.

  • Use tipos de recursos para caracterizar dados, criar estatísticas de resumo de significado e plotar. Use o sistema de aviso e validação para testar a qualidade dos dados.
  • Treine modelos de machine learning usando o serviço Data Science Jobs.
  • Gerencie o ciclo de vida dos ambientes conda usando a CLI ads conda.