Creación de Trabajos

Crear y ejecutar un trabajo en Data Science.

Antes de empezar

Asegúrese de que ha creado las políticas, la autenticación y la autorización necesarias para sus trabajos.
Cree un archivo de artefacto de trabajo o cree un contenedor personalizado.
Para almacenar y gestionar registros de trabajos, obtenga información sobre el registro.
Para utilizar montajes de almacenamiento, debe tener un cubo de Object Storage o un destino de montaje y una ruta de exportación del servicio OCI File Storage (FSS).
Para los montajes de almacenamiento, asegúrese de tener la autorización para utilizar montajes de almacenamiento.
Para utilizar FSS, primero debe crear el sistema de archivos y el punto de montaje. Utilice la opción de red personalizada y asegúrese de que el destino de montaje y el bloc de notas estén configurados con la misma subred. Configure las reglas de la lista de seguridad para la subred con los puertos y protocolos específicos.

Asegúrese de que los límites de servicio se asignan a file-system-count y mount-target-count.

1. En la página de lista Proyectos, seleccione el proyecto que contiene los trabajos con los que desea trabajar. Si necesita ayuda para buscar la página de lista o el proyecto, consulte Lista de proyectos.
2. En la página de detalles del proyecto, seleccione Trabajos.
3. Seleccione Crear trabajo.
  Se abre la página Crear trabajo.
Información básica
Seleccione uno o varios nodos y proporcione información de identificación.
- Tipo de trabajo: seleccione la opción correspondiente.
  
  Nodo único: una máquina para el trabajo.
  
  Varios nodos: varios nodos para un trabajo exigente.
- Compartimento (opcional): seleccione un compartimento diferente para el trabajo.
- Nombre (opcional): introduzca un nombre para el trabajo (límite de 255 caracteres). Si no se proporciona un nombre, se genera automáticamente un nombre. Ejemplo: job20210808222435
Configuración
Introduzca la siguiente información.
- Agregar grupo de nodos (solo trabajos de varios nodos): seleccione esta opción para agregar una configuración de grupo de nodos. Agregue hasta 5 grupos de nodos.
  
  Nombre: Introduzca un nombre único para el grupo de nodos.
  
  Replicas: introduzca el número de réplicas.
  
  Réplicas mínimas correctas: introduzca el número mínimo de réplicas que se deben realizar correctamente.
  
  Campos asteriscados (*)
  
  (Opcional) Si tiene más de un grupo de nodos, especifique el orden de inicio del grupo de nodos, ya sea en paralelo o en secuencia.
- Clave de variable de entorno personalizada* (opcional): variables de entorno que controlan el trabajo.
  Nota
  
  Si ha cargado el archivo zip o el archivo tar comprimido, agregue JOB_RUN_ENTRYPOINT como una variable de entorno personalizada para que apunte al archivo.
- Valor* (opcional): valor de la clave de variable de entorno personalizada.
- Argumentos de la línea de comando* (opcional): los argumentos de la línea de comando que desea utilizar para ejecutar el trabajo.
- Máximo de tiempo de ejecución (en minutos) (opcional): número máximo de minutos que puede ejecutarse el trabajo. El servicio cancela la ejecución del trabajo si su tiempo de ejecución supera el valor especificado. El tiempo de ejecución máximo es de 30 días (43.200 minutos). Se recomienda configurar un tiempo de ejecución máximo en todas las ejecuciones de trabajos para evitar ejecuciones de trabajos sin control.
- Cambiar unidad* (opcional): cambie la unidad de computación seleccionando Cambiar unidad. A continuación, siga estos pasos en el panel Seleccionar unidad de computación.
  
  Seleccione un tipo de instancia.
  
  Seleccione una serie de formas.
  
  Seleccione una de las unidades de Compute soportadas en la serie. Seleccione la unidad que más se adapte a cómo desea utilizar el recurso.
  
  Amplíe la unidad seleccionada para configurar las OCPU y la memoria.
  
  Número de OCPU
  
  Cantidad de memoria (GB): para cada OCPU, seleccione hasta 64 GB de memoria y un máximo total de 512 GB. La cantidad mínima de memoria permitida es de 1 GB o un valor que coincida con el número de OCPU, cualquiera que sea mayor.
  
  Activar unidad ampliable: seleccione si utiliza máquinas virtuales ampliables y, a continuación, para Utilización de base por OCPU, seleccione el porcentaje de OCPU que normalmente desea utilizar. Los valores soportados son 12,5% y 50%. (Para despliegues de modelos, solo se admite el valor del 50 %).
  
  Seleccione Seleccionar unidad.
- Almacenamiento: introduzca la cantidad de almacenamiento de bloques que se va a utilizar entre 50 GB y 10, 240 GB (10 TB). Puede cambiar el valor en incrementos de 1 GB.
- Recursos de red: seleccione la opción correspondiente.
  
  Red por defecto: restringe el tráfico solo a los servicios de Oracle. El sistema utiliza la red gestionada por servicios existente. La carga de trabajo se asocia mediante una VNIC secundaria a una VCN y una subred preconfiguradas y gestionadas por servicios. Esta subred proporcionada permite el acceso a la Internet pública a través de un gateway de NAT y al acceso a otros servicios de la nube de Oracle Cloud a través de un gateway de servicio.
  Si solo necesita acceder a los servicios públicos de Internet y OCI, recomendamos utilizar esta opción. No es necesario que cree recursos de red ni escriba políticas para los permisos de red.
  
  Redes por defecto con Internet: permite el acceso a Internet saliente a través del gateway de NAT de Data Science.
  Nota
  
  No puede utilizar la red por defecto con Internet en dominios desconectados y arrendamientos de desarrollo de Oracle. Si su arrendamiento o compartimento tiene una política de zona de seguridad de Data Science que deniega el acceso a la red pública (por ejemplo, deny model_deploy_public_network, consulte Política de zona de seguridad de Data Science), la opción de acceso a Internet público gestionado por el servicio está desactivada. Si intenta utilizar esta opción, recibirá un error 404 NotAuthorizedOrNotFound.
  
  Red personalizada: seleccione la VCN y subred (por compartimento) que desea utilizar.
  Para obtener acceso de salida a la red pública de Internet, utilice una subred privada con una ruta a un gateway de NAT.
  Nota
  
  Las redes personalizadas se deben utilizar para utilizar un montaje de almacenamiento de archivos.
  
  Tras la creación, no se admite el cambio de redes personalizadas a redes gestionadas.
  
  Si ve el banner The specified subnet is not accessible. Select a different subnet., cree una política que permita a Data Science utilizar redes personalizadas. Consulte Políticas.
- Cargar artefacto de trabajo (opcional si BYOC está configurado): cargue el artefacto de trabajo arrastrando el archivo de artefacto de trabajo necesario al cuadro.
Nota

Un asterisco (*) para un campo indica una ubicación diferente para trabajos de varios nodos. Si está creando un trabajo de varios nodos, busque el campo agregando un grupo de nodos: en Configuración, seleccione Agregar grupo de nodos. El campo aparece en el panel Agregar grupo de nodos.
Configuración Adicional
Introduzca la siguiente información.
- Activar registro (opcional): configure el registro.
  
  Compartimento de grupo de logs: seleccione el compartimento que contiene el grupo de logs.
  
  Grupo de logs: seleccione el grupo de logs.
  
  Activar Creación Automática de Logs: Seleccione esta opción para crear automáticamente un log cuando se inicie el trabajo. El log creado almacena todos los mensajes stdout y stderr.
  
  Seleccionar un log: seleccione esta opción (y seleccione un log existente) para almacenar todos los mensajes stdout y stderr.
- Activar BYOC / Configuración de entorno > Seleccionar* (Necesario para trabajos de varios nodos): configure un entorno para Traiga su propio contenedor (BYOC).
  
  Compartimento: seleccione el compartimento que contiene el repositorio.
  
  Repositorio: seleccione un repositorio de la lista.
  
  Imagen: seleccione la imagen que desea usar.
  
  Punto de entrada: introduzca un punto de entrada.
  
  CMD: introduzca un comando.
  Nota
  
  Utilice CMD como argumentos para ENTRYPOINT o como único comando que ejecutar en ausencia de ENTRYPOINT.
  
  Resumen de imagen: introduzca un resumen de imagen.
  
  ID de firma: si se utiliza la verificación de firma, introduzca el OCID de la firma de imagen. Ejemplo: ocid1.containerimagesignature.oc1.iad.aaaaaaaaab...
- Montajes de almacenamiento de archivos (opcional): seleccione Agregar montaje de almacenamiento de archivos e introduzca la siguiente información.
  
  Compartimento: seleccione el compartimento que contiene el destino que desea montar.
  
  Destino de montaje: destino de montaje que desea utilizar.
  
  Ruta de exportación: ruta de exportación que desea utilizar.
  
  Ruta de destino y directorio: introduzca la ruta que se utilizará para montar el almacenamiento.
  La ruta debe empezar por un carácter alfanumérico. El directorio de destino debe ser único en todos los montajes de almacenamiento proporcionados. Los caracteres permitidos son alfanuméricos, guiones ( - ) y guiones bajos ( _ ).
  Puede especificar la ruta de acceso completa, como /opc/storage-directory. Si sólo se especifica un directorio, como /storage-directory, se monta en el directorio /mnt por defecto. No puede especificar directorios específicos del sistema operativo, como /bin o /etc.
- Montajes de almacenamiento de objetos (opcional): seleccione Agregar montaje de almacenamiento de objetos e introduzca la siguiente información.
  
  Compartimento: seleccione el compartimento que contiene el cubo que desea montar.
  
  Bloque: seleccione el bloque que desea utilizar.
  
  Prefijo de nombre de objeto (opcional): prefijo de nombre de objeto. El prefijo debe empezar por un carácter alfanumérico. Los caracteres permitidos son alfanuméricos, barra ( / ), guion ( - ) y guion bajo ( _ ).
  
  Ruta de destino y directorio: introduzca la ruta que se utilizará para montar el almacenamiento.
  La ruta debe empezar por un carácter alfanumérico. El directorio de destino debe ser único en todos los montajes de almacenamiento proporcionados. Los caracteres permitidos son alfanuméricos, guiones ( - ) y guiones bajos ( _ ).
  Puede especificar la ruta completa, como /opc/storage-directory. Si sólo se especifica un directorio, como /storage-directory, se monta en el directorio /mnt por defecto. No puede especificar directorios específicos del sistema operativo, como /bin o /etc.
  
  Nota
  
  Si utiliza redes personalizadas:
  
  Cree el gateway del servicio en la VCN.
  
  Para las configuraciones de tabla de rutas en la subred privada, agregue el gateway de servicio.
  
  Cambie las reglas de salida de la lista de seguridad de la subred necesaria para permitir el tráfico a todos los servicios de la red.
- Sondeo* (necesario para trabajos de varios nodos): configure el sondeo de inicio.
  
  Seleccione Seleccionar.
  
  En el panel Probes, introduzca la siguiente información.
  
  Comando
  
  Retraso inicial (en segundos)
  
  Período
  
  Umbral de fallo
  
  Seleccione Guardar.
- Etiquetas (en Opciones avanzadas): agregue etiquetas al trabajo. Si tiene permisos para crear un recurso, también tiene permisos para aplicar etiquetas de formato libre a dicho recurso. Para aplicar una etiqueta definida, debe tener permisos para utilizar el espacio de nombres de etiqueta. Para obtener más información sobre el etiquetado, consulte Etiquetas de recursos. Si no está seguro de si desea aplicar etiquetas, omita esta opción o pregunte a un administrador. Puede aplicar etiquetas más tarde.
Nota

Un asterisco (*) para un campo indica una ubicación diferente para trabajos de varios nodos. Si está creando un trabajo de varios nodos, busque el campo agregando un grupo de nodos: en Configuración, seleccione Agregar grupo de nodos. El campo aparece en el panel Agregar grupo de nodos.
Revisar y crear

Revise la configuración y, a continuación, seleccione Crear.

Una vez que el trabajo tenga el estado activo, podrá usar ejecuciones de trabajo para ejecutar el trabajo de forma repetida.

Estas variables de entorno controlan el trabajo.

Utilice la CLI de Data Science para crear un trabajo como en este ejemplo:

Cree un trabajo con:

oci data-science job create \
--display-name <job_name>\
--compartment-id <compartment_ocid>\
--project-id <project_ocid> \
--configuration-details file://<jobs_configuration_json_file> \
--infrastructure-configuration-details file://<jobs_infrastructure_configuration_json_file> \
--log-configuration-details file://<optional_jobs_infrastructure_configuration_json_file>

Utilice este archivo JSON de configuración de trabajos:

{
  "jobType": "DEFAULT",
  "maximumRuntimeInMinutes": 240,
  "commandLineArguments" : "test-arg",
  "environmentVariables": {
    "SOME_ENV_KEY": "some_env_value" 
  }
}

Utilice este archivo JSON de configuración de infraestructura de trabajos:

{
  "jobInfrastructureType": "STANDALONE",
  "shapeName": "VM.Standard2.1",
  "blockStorageSizeInGBs": "50",
  "subnetId": "<subnet_ocid>"
}

(Opcional) Utilice este archivo JSON de configuración de registro de trabajos:

{
  "enableLogging": true,
  "enableAutoLogCreation": true,
  "logGroupId": "<log_group_ocid>"
}

Cargue un archivo de artefacto de trabajo para el trabajo que ha creado con:

oci data-science job create-job-artifact \
--job-id <job_ocid> \
--job-artifact-file <job_artifact_file_path> \
--content-disposition "attachment; filename=<job_artifact_file_name>"

El SDK de ADS también es una biblioteca de Python disponible públicamente que puede instalar con este comando:
```
pip install oracle-ads
```
Proporciona el envoltorio que facilita la creación y la ejecución de trabajos desde blocs de notas o en la máquina cliente.

Utilice el SDK de ADS para crear y ejecutar trabajos.

Documentación de Oracle Cloud Infrastructure

Creación de Trabajos

Antes de empezar

Información básica

Configuración

Configuración Adicional

Revisar y crear